論文の概要: Deconfounded Visual Grounding
- arxiv url: http://arxiv.org/abs/2112.15324v1
- Date: Fri, 31 Dec 2021 07:14:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-03 13:31:45.188505
- Title: Deconfounded Visual Grounding
- Title(参考訳): デコンボリックな視覚接地
- Authors: Jianqiang Huang, Yu Qin, Jiaxin Qi, Qianru Sun, Hanwang Zhang
- Abstract要約: 視覚的な接地パイプラインにおける言語と位置の相反するバイアスに焦点を当てる。
Referring Expression Deconfounder (RED, Referring Expression Deconfounder) と呼ばれる共同ファウンダーのアプローチを提案する。
- 参考スコア(独自算出の注目度): 83.24691721547201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We focus on the confounding bias between language and location in the visual
grounding pipeline, where we find that the bias is the major visual reasoning
bottleneck. For example, the grounding process is usually a trivial
language-location association without visual reasoning, e.g., grounding any
language query containing sheep to the nearly central regions, due to that most
queries about sheep have ground-truth locations at the image center. First, we
frame the visual grounding pipeline into a causal graph, which shows the
causalities among image, query, target location and underlying confounder.
Through the causal graph, we know how to break the grounding bottleneck:
deconfounded visual grounding. Second, to tackle the challenge that the
confounder is unobserved in general, we propose a confounder-agnostic approach
called: Referring Expression Deconfounder (RED), to remove the confounding
bias. Third, we implement RED as a simple language attention, which can be
applied in any grounding method. On popular benchmarks, RED improves various
state-of-the-art grounding methods by a significant margin. Code will soon be
available at: https://github.com/JianqiangH/Deconfounded_VG.
- Abstract(参考訳): 私たちは、視覚的グラウンドリングパイプラインにおける言語と位置の相反するバイアスに注目し、このバイアスが視覚的推論のボトルネックとなっていることに気付きました。
例えば、グラウンドリングプロセスは通常、視覚的推論なしで、羊を含む言語クエリをほぼ中央の領域に接地する、というような自明な言語配置アソシエーションである。
まず、視覚的な接地パイプラインを因果グラフにフレーム化し、画像、クエリ、ターゲット位置、そして基礎となる共同設立者間の因果関係を示す。
因果グラフを通じて、私たちは接地ボトルネックを分解する方法を知っています。
第二に、共同設立者が一般的に観察できない課題に取り組むために、私たちは、conferencion expression deconfounder (red) と呼ばれる共同設立者に依存しないアプローチを提案します。
第3に、redを単純な言語注意として実装し、任意の接地方法に適用できる。
一般的なベンチマークでは、REDは様々な最先端の接地方法を大幅に改善している。
コードは、 https://github.com/JianqiangH/Decon founded_VG.comで間もなく利用可能になる。
関連論文リスト
- Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - Language-Guided Diffusion Model for Visual Grounding [39.82955807681355]
既存のアプローチは、そのような視覚的テキスト推論を1ステップで完了させる。
本稿では,ビジュアルグラウンドディングのための言語誘導拡散フレームワークLG-DVGを提案する。
広範に使用されている5つのデータセットの実験は、視覚的グラウンドリングの優れた性能、つまり、モーダルなアライメントタスクを生成的手法で検証した。
論文 参考訳(メタデータ) (2023-08-18T14:54:13Z) - Tell Me the Evidence? Dual Visual-Linguistic Interaction for Answer
Grounding [27.9150632791267]
本稿では,言語応答と視覚的接地機能を備えた新しいエンドツーエンドフレームワークであるDual Visual-Linguistic Interaction (DaVI)を提案する。
1)視覚的特徴が組み込まれた質問を理解し,さらに回答の復号化のための言語指向のエビデンスを生成する視覚的言語的エンコーダ,2)回答グラウンド化のためのエビデンス関連領域に視覚的特徴に焦点を当てた言語的視覚的デコーダである。
論文 参考訳(メタデータ) (2022-06-21T03:15:27Z) - Distributed Attention for Grounded Image Captioning [55.752968732796354]
弱教師付き接地画像キャプションの問題点について検討する。
目的は、画像の対応する領域に接する各名詞語で画像のコンテキストを記述する文を自動的に生成することである。
論文 参考訳(メタデータ) (2021-08-02T17:28:33Z) - Relation-aware Instance Refinement for Weakly Supervised Visual
Grounding [44.33411132188231]
visual groundingは、ビジュアルオブジェクトとその言語エンティティ間の対応を構築することを目的としている。
本稿では,オブジェクトの細粒化とエンティティ関係モデリングを組み込んだ,新しい弱教師付き学習手法を提案する。
2つの公開ベンチマークの実験は、我々のフレームワークの有効性を実証している。
論文 参考訳(メタデータ) (2021-03-24T05:03:54Z) - Decoupled Spatial Temporal Graphs for Generic Visual Grounding [120.66884671951237]
この研究は、与えられた表現を満たすすべてのオブジェクトをマイニングすることを目的とした、より一般的な設定、一般的な視覚接地を調査します。
我々は,(1)空間表現と時間表現を分解し,すべての側面の手がかりを収集し,正確な接地を行う,単純かつ効果的なアプローチであるdstgを提案する。
さらに、遠距離ビデオによる参照ケースに挑戦する、新しいビデオデータセットであるGVGについて詳しく述べる。
論文 参考訳(メタデータ) (2021-03-18T11:56:29Z) - Visually Grounded Compound PCFGs [65.04669567781634]
言語理解のための視覚的基盤の爆発は、最近多くの注目を集めている。
本研究では,視覚的な文法誘導について検討し,未ラベルテキストとその視覚的キャプションから選挙区を学習する。
論文 参考訳(メタデータ) (2020-09-25T19:07:00Z) - Each Part Matters: Local Patterns Facilitate Cross-view Geo-localization [54.00111565818903]
クロスビューなジオローカライゼーションは、異なるプラットフォームから同じ地理的ターゲットの画像を見つけることである。
既存の手法は通常、画像センター内の地理的ターゲットの微細な特徴をマイニングすることに集中している。
我々は、文脈情報を活用するために、ローカルパターンネットワーク(LPN)と呼ばれるシンプルで効果的なディープニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-08-26T16:06:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。