論文の概要: Causality-based Cross-Modal Representation Learning for
Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2403.03405v1
- Date: Wed, 6 Mar 2024 02:01:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 16:22:11.403206
- Title: Causality-based Cross-Modal Representation Learning for
Vision-and-Language Navigation
- Title(参考訳): 視覚・言語ナビゲーションのための因果関係に基づくクロスモーダル表現学習
- Authors: Liuyi Wang, Zongtao He, Ronghao Dang, Huiyi Chen, Chengju Liu, Qijun
Chen
- Abstract要約: VLN(Vision-and-Language Navigation)は、現実のシナリオに応用される可能性から、近年、大きな研究の関心を集めている。
既存のVLN法は、急激な関連の問題に苦慮し、その結果、目に見える環境と目に見えない環境の間に大きな性能差があるような一般化が不十分になる。
本稿では,因果学習パラダイムに基づく統一的なフレームワークCausalVLNを提案する。
- 参考スコア(独自算出の注目度): 15.058687283978077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation (VLN) has gained significant research interest
in recent years due to its potential applications in real-world scenarios.
However, existing VLN methods struggle with the issue of spurious associations,
resulting in poor generalization with a significant performance gap between
seen and unseen environments. In this paper, we tackle this challenge by
proposing a unified framework CausalVLN based on the causal learning paradigm
to train a robust navigator capable of learning unbiased feature
representations. Specifically, we establish reasonable assumptions about
confounders for vision and language in VLN using the structured causal model
(SCM). Building upon this, we propose an iterative backdoor-based
representation learning (IBRL) method that allows for the adaptive and
effective intervention on confounders. Furthermore, we introduce the visual and
linguistic backdoor causal encoders to enable unbiased feature expression for
multi-modalities during training and validation, enhancing the agent's
capability to generalize across different environments. Experiments on three
VLN datasets (R2R, RxR, and REVERIE) showcase the superiority of our proposed
method over previous state-of-the-art approaches. Moreover, detailed
visualization analysis demonstrates the effectiveness of CausalVLN in
significantly narrowing down the performance gap between seen and unseen
environments, underscoring its strong generalization capability.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、現実のシナリオに応用される可能性から、近年、大きな研究関心を集めている。
しかし、既存のVLN法は、急激な関連の問題に苦慮し、その結果、目に見える環境と目に見えない環境の間に大きな性能差があるような一般化が不十分になる。
本稿では、因果学習パラダイムに基づく統一的なフレームワークCausalVLNを提案し、不偏形特徴表現を学習できる堅牢なナビゲータを訓練する。
具体的には、構造化因果モデル(SCM)を用いて、VLNにおける視覚と言語のための共同創設者に関する合理的な仮定を確立する。
そこで我々は,共同創設者に対する適応的かつ効果的な介入を可能にする,反復的バックドアベース表現学習(IBRL)手法を提案する。
さらに,訓練や検証中にマルチモダリティに対して偏りのない特徴表現を可能にするために,視覚的および言語的バックドア因果エンコーダを導入することで,エージェントが異なる環境にまたがって一般化する能力を高める。
3つのVLNデータセット(R2R、RxR、REVERIE)の実験では、従来の最先端手法よりも提案手法の方が優れていることが示された。
さらに,詳細な可視化解析により,視認環境と視認環境間の性能ギャップを著しく狭め,その強汎化能力が強調されたcausalvlnの有効性が示された。
関連論文リスト
- Reflexive Guidance: Improving OoDD in Vision-Language Models via Self-Guided Image-Adaptive Concept Generation [4.506099292980221]
各種プロプライエタリおよびオープンソースLVLMのOoDD機能の評価と解析を行った。
本稿では,LVLMのOoDD機能向上を目的とした自己誘導型プロンプト手法であるemphReflexive Guidance(ReGuide)を提案する。
実験結果から,我々のReGuideは画像分類とOoDDタスクの両方において,現在のLVLMの性能を向上させることが示された。
論文 参考訳(メタデータ) (2024-10-19T04:46:51Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - Vision-and-Language Navigation via Causal Learning [13.221880074458227]
クロスモーダル因果変換器(Cross-modal causal transformer, GOAT)は因果推論のパラダイムに根ざした先駆的な解である。
BACLおよびFACLモジュールは、潜在的刺激的相関を包括的に緩和することにより、偏見のない学習を促進する。
グローバルな共同創設者の特徴を捉えるために,コントラスト学習によって教師されるクロスモーダル機能プーリングモジュールを提案する。
論文 参考訳(メタデータ) (2024-04-16T02:40:35Z) - Visual In-Context Learning for Large Vision-Language Models [62.5507897575317]
大規模視覚言語モデル(LVLM)では、言語間相互作用や表現格差の課題により、ICL(In-Context Learning)の有効性が制限されている。
本稿では,視覚的記述型検索,意図的画像要約,意図的記述型合成を含む新しい視覚的記述型学習(VICL)手法を提案する。
提案手法は'Retrieval & Rerank'パラダイムを用いて画像を検索し,タスク意図とタスク固有の視覚的パーシングで画像を要約し,言語による実演を構成する。
論文 参考訳(メタデータ) (2024-02-18T12:43:38Z) - Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z) - Confounder Identification-free Causal Visual Feature Learning [84.28462256571822]
本稿では,創始者を特定する必要性を排除した,創始者同定自由因果視覚特徴学習(CICF)手法を提案する。
CICFは、フロントドア基準に基づいて異なるサンプル間の介入をモデル化し、インスタンスレベルの介入に対するグローバルスコープ干渉効果を近似する。
我々は,CICFと一般的なメタラーニング戦略MAMLの関係を明らかにするとともに,MAMLが理論的観点から機能する理由を解釈する。
論文 参考訳(メタデータ) (2021-11-26T10:57:47Z) - SASRA: Semantically-aware Spatio-temporal Reasoning Agent for
Vision-and-Language Navigation in Continuous Environments [7.5606260987453116]
本稿では,連続3次元環境における視覚・言語ナビゲーション(VLN)タスクに対する新しいアプローチを提案する。
既存のエンド・ツー・エンドの学習手法は、主に生の視覚的観察に焦点を当てているため、この課題に苦慮している。
本稿では,古典的意味マッピング手法と学習に基づく手法を組み合わせることに焦点を当てたハイブリッドトランスフォーマー・リカレンスモデルを提案する。
論文 参考訳(メタデータ) (2021-08-26T17:57:02Z) - Farewell to Mutual Information: Variational Distillation for Cross-Modal
Person Re-Identification [41.02729491273057]
Information Bottleneck (IB)は、表現学習のための情報理論の原則を提供する。
我々は、スケーラブルで柔軟で分析的なソリューションを提供する新しい戦略、可変自己蒸留(VSD)を提示します。
また、Variational Cross-Distillation (VCD) と Variational Mutual-Learning (VML) の2つの戦略を紹介します。
論文 参考訳(メタデータ) (2021-04-07T02:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。