論文の概要: Language-Guided Diffusion Model for Visual Grounding
- arxiv url: http://arxiv.org/abs/2308.09599v1
- Date: Fri, 18 Aug 2023 14:54:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 12:48:57.413951
- Title: Language-Guided Diffusion Model for Visual Grounding
- Title(参考訳): 視覚接地のための言語誘導拡散モデル
- Authors: Sijia Chen, Baochun Li
- Abstract要約: 既存のアプローチは、そのような視覚的テキスト推論を1ステップで完了させる。
本稿では,ビジュアルグラウンドディングのための言語誘導拡散フレームワークLG-DVGを提案する。
広範に使用されている5つのデータセットの実験は、視覚的グラウンドリングの優れた性能、つまり、モーダルなアライメントタスクを生成的手法で検証した。
- 参考スコア(独自算出の注目度): 39.82955807681355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual grounding (VG) tasks involve explicit cross-modal alignment, as
semantically corresponding image regions are to be located for the language
phrases provided. Existing approaches complete such visual-text reasoning in a
single-step manner. Their performance causes high demands on large-scale
anchors and over-designed multi-modal fusion modules based on human priors,
leading to complicated frameworks that may be difficult to train and overfit to
specific scenarios. Even worse, such once-for-all reasoning mechanisms are
incapable of refining boxes continuously to enhance query-region matching. In
contrast, in this paper, we formulate an iterative reasoning process by
denoising diffusion modeling. Specifically, we propose a language-guided
diffusion framework for visual grounding, LG-DVG, which trains the model to
progressively reason queried object boxes by denoising a set of noisy boxes
with the language guide. To achieve this, LG-DVG gradually perturbs
query-aligned ground truth boxes to noisy ones and reverses this process step
by step, conditional on query semantics. Extensive experiments for our proposed
framework on five widely used datasets validate the superior performance of
solving visual grounding, a cross-modal alignment task, in a generative way.
The source codes are available at
\url{https://github.com/iQua/vgbase/tree/DiffusionVG}.
- Abstract(参考訳): 視覚的グラウンド(VG)タスクは、与えられた言語句に対して意味的に対応する画像領域が配置されるため、明示的なクロスモーダルアライメントを含む。
既存のアプローチは、そのような視覚的テキスト推論を1ステップで完了させる。
それらのパフォーマンスは、大規模なアンカーや、人間による事前設計に基づく過度に設計されたマルチモーダルフュージョンモジュールに高い要求をもたらし、特定のシナリオに対してトレーニングや過度な適合が難しい複雑なフレームワークに繋がる。
さらに悪いことに、この1回限りの推論メカニズムは、クエリ-リージョンマッチングを強化するために、連続的にボックスを精製することができない。
対照的に,本稿では拡散モデルを用いて反復推論プロセスを定式化する。
具体的には,言語ガイドでノイズボックスのセットをデノベートすることにより,クエリ対象ボックスを段階的に推論するようにモデルを訓練する,視覚接地のための言語誘導拡散フレームワークlg-dvgを提案する。
これを達成するために、LG-DVGは、クエリに整合した基底真理ボックスを徐々にノイズにし、クエリのセマンティクスを段階的に逆転させる。
提案手法を広範に用いた5つのデータセットに対する拡張実験により,視覚的グラウンド化の優れた性能,すなわちモーダルアライメントタスクを生成的手法で検証した。
ソースコードは \url{https://github.com/iQua/vgbase/tree/DiffusionVG} で入手できる。
関連論文リスト
- HiVG: Hierarchical Multimodal Fine-grained Modulation for Visual Grounding [80.85164509232261]
HiVGは多層適応型クロスモーダルブリッジと階層型マルチモーダル低ランク適応(Hi LoRA)パラダイムで構成されている。
Hi LoRAは、階層的な方法で、クロスモーダルな特徴を浅い層から深い層に適応させることによって、知覚エラーの蓄積を防止する。
論文 参考訳(メタデータ) (2024-04-20T14:57:31Z) - Training-Free Open-Vocabulary Segmentation with Offline Diffusion-Augmented Prototype Generation [44.008094698200026]
FreeDAはオープン語彙セマンティックセグメンテーションのためのトレーニング不要な拡散拡張手法である。
FreeDAは5つのデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-09T18:00:25Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning [25.230786853723203]
低リソース言語に対するノイズローバストな言語間クロスモーダル検索手法を提案する。
低リソース言語のための擬似並列文ペアを構築するために,機械翻訳を用いる。
ノイズロスのターゲット言語表現を学習するための多視点自己蒸留法を提案する。
論文 参考訳(メタデータ) (2022-08-26T09:32:24Z) - Linguistic Structure Guided Context Modeling for Referring Image
Segmentation [61.701577239317785]
本稿では,マルチモーダルコンテキストを相互モーダル相互作用によりモデル化する「ガザ・プロパゲート・ディストリビュート」方式を提案する。
我々のLSCMモジュールは依存パーシングツリーワードグラフ(DPT-WG)を構築し、文の有効なマルチモーダルコンテキストを含むようにすべての単語を誘導する。
論文 参考訳(メタデータ) (2020-10-01T16:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。