論文の概要: Language-Guided Diffusion Model for Visual Grounding
- arxiv url: http://arxiv.org/abs/2308.09599v3
- Date: Tue, 25 Feb 2025 14:41:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:18:00.229738
- Title: Language-Guided Diffusion Model for Visual Grounding
- Title(参考訳): 視覚的接地のための言語誘導拡散モデル
- Authors: Sijia Chen, Baochun Li,
- Abstract要約: 既存のアプローチは、そのような視覚的テキスト推論を1ステップで完了させる。
本稿では,ビジュアルグラウンドディングのための言語誘導拡散フレームワークLG-DVGを提案する。
広範に使用されている5つのデータセットの実験は、視覚的グラウンドリングの優れた性能、つまり、モーダルなアライメントタスクを生成的手法で検証した。
- 参考スコア(独自算出の注目度): 33.714789952452094
- License:
- Abstract: Visual grounding (VG) tasks involve explicit cross-modal alignment, as semantically corresponding image regions are to be located for the language phrases provided. Existing approaches complete such visual-text reasoning in a single-step manner. Their performance causes high demands on large-scale anchors and over-designed multi-modal fusion modules based on human priors, leading to complicated frameworks that may be difficult to train and overfit to specific scenarios. Even worse, such once-for-all reasoning mechanisms are incapable of refining boxes continuously to enhance query-region matching. In contrast, in this paper, we formulate an iterative reasoning process by denoising diffusion modeling. Specifically, we propose a language-guided diffusion framework for visual grounding, LG-DVG, which trains the model to progressively reason queried object boxes by denoising a set of noisy boxes with the language guide. To achieve this, LG-DVG gradually perturbs query-aligned ground truth boxes to noisy ones and reverses this process step by step, conditional on query semantics. Extensive experiments for our proposed framework on five widely used datasets validate the superior performance of solving visual grounding, a cross-modal alignment task, in a generative way. The source codes are available at https://github.com/iQua/vgbase/tree/main/examples/DiffusionVG.
- Abstract(参考訳): 視覚的グラウンド(VG)タスクは、与えられた言語句に対して意味的に対応する画像領域が配置されるため、明示的なクロスモーダルアライメントを含む。
既存のアプローチは、そのような視覚的テキスト推論を1ステップで完了させる。
それらのパフォーマンスは、大規模なアンカーや、人間による事前設計に基づく過度に設計されたマルチモーダルフュージョンモジュールに高い要求をもたらし、特定のシナリオに対してトレーニングや過度な適合が難しい複雑なフレームワークに繋がる。
さらに悪いことに、この1回限りの推論メカニズムは、クエリ-リージョンマッチングを強化するために、連続的にボックスを精製することができない。
一方,本論文では拡散モデルを用いて反復的推論過程を定式化する。
具体的には,視覚的接地のための言語誘導拡散フレームワークLG-DVGを提案する。
これを達成するために、LG-DVGは、クエリに整合した基底真理ボックスを徐々にノイズにし、クエリのセマンティクスを段階的に逆転させる。
提案手法を広範に用いた5つのデータセットに対する拡張実験により, 視覚的グラウンドリングの解法, クロスモーダルアライメントタスクの優れた性能を, 生成的手法で検証した。
ソースコードはhttps://github.com/iQua/vgbase/tree/main/examples/DiffusionVGで入手できる。
関連論文リスト
- NAVER: A Neuro-Symbolic Compositional Automaton for Visual Grounding with Explicit Logic Reasoning [22.60247555240363]
本稿では,人間の認知のような推論を必要とする手法の課題について考察する。
本研究では,明示的な確率論的論理推論を統合する構成的視覚的接地手法であるNAVERを提案する。
その結果、NAVERは最近のエンドツーエンドや構成ベースラインと比較して SoTA の性能が向上していることがわかった。
論文 参考訳(メタデータ) (2025-02-01T09:19:08Z) - Decoding Diffusion: A Scalable Framework for Unsupervised Analysis of Latent Space Biases and Representations Using Natural Language Prompts [68.48103545146127]
本稿では拡散潜在空間の教師なし探索のための新しい枠組みを提案する。
我々は、自然言語のプロンプトと画像キャプションを直接利用して、遅延方向をマップする。
本手法は,拡散モデルに符号化された意味的知識をよりスケーラブルで解釈可能な理解を提供する。
論文 参考訳(メタデータ) (2024-10-25T21:44:51Z) - FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - HiVG: Hierarchical Multimodal Fine-grained Modulation for Visual Grounding [80.85164509232261]
HiVGは多層適応型クロスモーダルブリッジと階層型マルチモーダル低ランク適応(HiLoRA)パラダイムで構成されている。
HiLoRAは、階層的な方法で、クロスモーダルな特徴を浅い層から深い層に適応させることによって、知覚エラーの蓄積を防止する。
論文 参考訳(メタデータ) (2024-04-20T14:57:31Z) - Bridging Modality Gap for Visual Grounding with Effecitve Cross-modal Distillation [2.104191333263349]
現在の視覚的接地法は、視覚的特徴と言語的特徴を得るために、訓練済みの視覚的および言語的バックボーンを独立して利用する。
この問題は、現在の視覚的接地法で使用されるシングルモーダルトレーニングバックボーン間のドメインギャップから生じる。
本稿では,視覚的グラウンド化作業の指針となるマルチモーダル事前学習モデルを蒸留する,視覚的グラウンド化のためのエンパワーディング事前学習モデルを提案する。
論文 参考訳(メタデータ) (2023-12-29T15:32:11Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning [25.230786853723203]
低リソース言語に対するノイズローバストな言語間クロスモーダル検索手法を提案する。
低リソース言語のための擬似並列文ペアを構築するために,機械翻訳を用いる。
ノイズロスのターゲット言語表現を学習するための多視点自己蒸留法を提案する。
論文 参考訳(メタデータ) (2022-08-26T09:32:24Z) - Linguistic Structure Guided Context Modeling for Referring Image
Segmentation [61.701577239317785]
本稿では,マルチモーダルコンテキストを相互モーダル相互作用によりモデル化する「ガザ・プロパゲート・ディストリビュート」方式を提案する。
我々のLSCMモジュールは依存パーシングツリーワードグラフ(DPT-WG)を構築し、文の有効なマルチモーダルコンテキストを含むようにすべての単語を誘導する。
論文 参考訳(メタデータ) (2020-10-01T16:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。