論文の概要: Language-Guided Diffusion Model for Visual Grounding
- arxiv url: http://arxiv.org/abs/2308.09599v1
- Date: Fri, 18 Aug 2023 14:54:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 12:48:57.413951
- Title: Language-Guided Diffusion Model for Visual Grounding
- Title(参考訳): 視覚接地のための言語誘導拡散モデル
- Authors: Sijia Chen, Baochun Li
- Abstract要約: 既存のアプローチは、そのような視覚的テキスト推論を1ステップで完了させる。
本稿では,ビジュアルグラウンドディングのための言語誘導拡散フレームワークLG-DVGを提案する。
広範に使用されている5つのデータセットの実験は、視覚的グラウンドリングの優れた性能、つまり、モーダルなアライメントタスクを生成的手法で検証した。
- 参考スコア(独自算出の注目度): 39.82955807681355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual grounding (VG) tasks involve explicit cross-modal alignment, as
semantically corresponding image regions are to be located for the language
phrases provided. Existing approaches complete such visual-text reasoning in a
single-step manner. Their performance causes high demands on large-scale
anchors and over-designed multi-modal fusion modules based on human priors,
leading to complicated frameworks that may be difficult to train and overfit to
specific scenarios. Even worse, such once-for-all reasoning mechanisms are
incapable of refining boxes continuously to enhance query-region matching. In
contrast, in this paper, we formulate an iterative reasoning process by
denoising diffusion modeling. Specifically, we propose a language-guided
diffusion framework for visual grounding, LG-DVG, which trains the model to
progressively reason queried object boxes by denoising a set of noisy boxes
with the language guide. To achieve this, LG-DVG gradually perturbs
query-aligned ground truth boxes to noisy ones and reverses this process step
by step, conditional on query semantics. Extensive experiments for our proposed
framework on five widely used datasets validate the superior performance of
solving visual grounding, a cross-modal alignment task, in a generative way.
The source codes are available at
\url{https://github.com/iQua/vgbase/tree/DiffusionVG}.
- Abstract(参考訳): 視覚的グラウンド(VG)タスクは、与えられた言語句に対して意味的に対応する画像領域が配置されるため、明示的なクロスモーダルアライメントを含む。
既存のアプローチは、そのような視覚的テキスト推論を1ステップで完了させる。
それらのパフォーマンスは、大規模なアンカーや、人間による事前設計に基づく過度に設計されたマルチモーダルフュージョンモジュールに高い要求をもたらし、特定のシナリオに対してトレーニングや過度な適合が難しい複雑なフレームワークに繋がる。
さらに悪いことに、この1回限りの推論メカニズムは、クエリ-リージョンマッチングを強化するために、連続的にボックスを精製することができない。
対照的に,本稿では拡散モデルを用いて反復推論プロセスを定式化する。
具体的には,言語ガイドでノイズボックスのセットをデノベートすることにより,クエリ対象ボックスを段階的に推論するようにモデルを訓練する,視覚接地のための言語誘導拡散フレームワークlg-dvgを提案する。
これを達成するために、LG-DVGは、クエリに整合した基底真理ボックスを徐々にノイズにし、クエリのセマンティクスを段階的に逆転させる。
提案手法を広範に用いた5つのデータセットに対する拡張実験により,視覚的グラウンド化の優れた性能,すなわちモーダルアライメントタスクを生成的手法で検証した。
ソースコードは \url{https://github.com/iQua/vgbase/tree/DiffusionVG} で入手できる。
関連論文リスト
- Decoding Diffusion: A Scalable Framework for Unsupervised Analysis of Latent Space Biases and Representations Using Natural Language Prompts [68.48103545146127]
本稿では拡散潜在空間の教師なし探索のための新しい枠組みを提案する。
我々は、自然言語のプロンプトと画像キャプションを直接利用して、遅延方向をマップする。
本手法は,拡散モデルに符号化された意味的知識をよりスケーラブルで解釈可能な理解を提供する。
論文 参考訳(メタデータ) (2024-10-25T21:44:51Z) - HiVG: Hierarchical Multimodal Fine-grained Modulation for Visual Grounding [80.85164509232261]
HiVGは多層適応型クロスモーダルブリッジと階層型マルチモーダル低ランク適応(HiLoRA)パラダイムで構成されている。
HiLoRAは、階層的な方法で、クロスモーダルな特徴を浅い層から深い層に適応させることによって、知覚エラーの蓄積を防止する。
論文 参考訳(メタデータ) (2024-04-20T14:57:31Z) - Bridging Modality Gap for Visual Grounding with Effecitve Cross-modal Distillation [2.104191333263349]
現在の視覚的接地法は、視覚的特徴と言語的特徴を得るために、訓練済みの視覚的および言語的バックボーンを独立して利用する。
この問題は、現在の視覚的接地法で使用されるシングルモーダルトレーニングバックボーン間のドメインギャップから生じる。
本稿では,視覚的グラウンド化作業の指針となるマルチモーダル事前学習モデルを蒸留する,視覚的グラウンド化のためのエンパワーディング事前学習モデルを提案する。
論文 参考訳(メタデータ) (2023-12-29T15:32:11Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning [25.230786853723203]
低リソース言語に対するノイズローバストな言語間クロスモーダル検索手法を提案する。
低リソース言語のための擬似並列文ペアを構築するために,機械翻訳を用いる。
ノイズロスのターゲット言語表現を学習するための多視点自己蒸留法を提案する。
論文 参考訳(メタデータ) (2022-08-26T09:32:24Z) - Linguistic Structure Guided Context Modeling for Referring Image
Segmentation [61.701577239317785]
本稿では,マルチモーダルコンテキストを相互モーダル相互作用によりモデル化する「ガザ・プロパゲート・ディストリビュート」方式を提案する。
我々のLSCMモジュールは依存パーシングツリーワードグラフ(DPT-WG)を構築し、文の有効なマルチモーダルコンテキストを含むようにすべての単語を誘導する。
論文 参考訳(メタデータ) (2020-10-01T16:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。