論文の概要: To Ask or Not to Ask? Detecting Absence of Information in Vision and Language Navigation
- arxiv url: http://arxiv.org/abs/2411.05831v1
- Date: Wed, 06 Nov 2024 04:21:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:11:55.136942
- Title: To Ask or Not to Ask? Detecting Absence of Information in Vision and Language Navigation
- Title(参考訳): 質問すべきかどうか : 視覚・言語ナビゲーションにおける情報の欠如の検出
- Authors: Savitha Sam Abraham, Sourav Garg, Feras Dayoub,
- Abstract要約: この論文は、エージェントが「もし」が「不足しているもの」に焦点を絞らずに、十分な情報がないと「もし」を認識できるかを論じる。
エージェントの軌道と命令の関連を学習する,注意に基づく指示迷走度推定モジュールを提案する。
提案手法では, 注意点の注意点が, 曖昧さを推定するための指標として有用であることが示唆された。
- 参考スコア(独自算出の注目度): 11.649534622371377
- License:
- Abstract: Recent research in Vision Language Navigation (VLN) has overlooked the development of agents' inquisitive abilities, which allow them to ask clarifying questions when instructions are incomplete. This paper addresses how agents can recognize "when" they lack sufficient information, without focusing on "what" is missing, particularly in VLN tasks with vague instructions. Equipping agents with this ability enhances efficiency by reducing potential digressions and seeking timely assistance. The challenge in identifying such uncertain points is balancing between being overly cautious (high recall) and overly confident (high precision). We propose an attention-based instruction-vagueness estimation module that learns associations between instructions and the agent's trajectory. By leveraging instruction-to-path alignment information during training, the module's vagueness estimation performance improves by around 52% in terms of precision-recall balance. In our ablative experiments, we also demonstrate the effectiveness of incorporating this additional instruction-to-path attention network alongside the cross-modal attention networks within the navigator module. Our results show that the attention scores from the instruction-to-path attention network serve as better indicators for estimating vagueness.
- Abstract(参考訳): 視覚言語ナビゲーション(VLN)の最近の研究は、エージェントの問い合わせ能力の発達を見落としており、命令が不完全であるときに明確な質問をすることができる。
本稿では、特にあいまいな指示を伴うVLNタスクにおいて、エージェントが「何」が欠けているかに焦点をあてることなく、十分な情報を欠く「いつ」を認識できるかを論じる。
この能力でエージェントを入手すると、潜在的な侵入を減らし、タイムリーな援助を求めることで効率が向上する。
このような不確実点を特定する上での課題は、過度に慎重(高いリコール)と過度に自信(高い精度)のバランスにある。
エージェントの軌道と命令の関連を学習するアテンションベースの命令迷走度推定モジュールを提案する。
トレーニング中の命令-パス間のアライメント情報を活用することで、モジュールのあいまいさ推定性能は精度-リコールバランスの点で約52%向上する。
また,本実験では,ナビゲータモジュール内のモーダル・アテンション・ネットワークと並行して,この追加のインストラクション・ツー・パス・アテンション・ネットワークを組み込むことの有効性を実証した。
提案手法では, 注意点の注意点が, 曖昧さを推定するための指標として有用であることが示唆された。
関連論文リスト
- TINA: Think, Interaction, and Action Framework for Zero-Shot Vision Language Navigation [11.591176410027224]
本稿では,Large Language Models(LLM)に基づく視覚言語ナビゲーション(VLN)エージェントを提案する。
環境認識におけるLLMの欠点を補うための思考・相互作用・行動の枠組みを提案する。
また,本手法は教師付き学習手法よりも優れ,ゼロショットナビゲーションの有効性を強調した。
論文 参考訳(メタデータ) (2024-03-13T05:22:39Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - Counterfactual Cycle-Consistent Learning for Instruction Following and
Generation in Vision-Language Navigation [172.15808300686584]
本稿では,2つのタスクを同時に学習し,それぞれのトレーニングを促進するために本質的な相関性を利用するアプローチについて述べる。
提案手法は,様々な追従モデルの性能を改善し,正確なナビゲーション命令を生成する。
論文 参考訳(メタデータ) (2022-03-30T18:15:26Z) - Attention cannot be an Explanation [99.37090317971312]
私たちは、人間の信頼と信頼を高める上で、注意に基づく説明がどの程度効果的か尋ねる。
我々は,注意に基づく説明が適している程度を質的かつ定量的に評価することを目的とした広範囲な人間実験を行った。
実験の結果,注意は説明として利用できないことが明らかとなった。
論文 参考訳(メタデータ) (2022-01-26T21:34:05Z) - Adversarial Reinforced Instruction Attacker for Robust Vision-Language
Navigation [145.84123197129298]
自然言語に基づくナビゲーションタスクでは,言語指導が重要な役割を担っている。
より堅牢なナビゲータを訓練し、長い指導から重要な要素を動的に抽出する。
具体的には,航法士が間違った目標に移動することを誤認することを学習する動的強化命令攻撃装置(DR-Attacker)を提案する。
論文 参考訳(メタデータ) (2021-07-23T14:11:31Z) - Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。
本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文 参考訳(メタデータ) (2021-07-07T12:09:04Z) - Deep Reinforced Attention Learning for Quality-Aware Visual Recognition [73.15276998621582]
我々は,任意の畳み込みニューラルネットワークにおける中間注意マップの弱教師付き生成機構を構築した。
メタ批評家ネットワークを導入し、メインネットワークにおける注目マップの質を評価する。
論文 参考訳(メタデータ) (2020-07-13T02:44:38Z) - Self-supervised visual feature learning with curriculum [0.24366811507669126]
本稿では,カリキュラム学習からインスピレーションを得て,段階的に低レベル信号を除去する。
その結果,下流タスクの収束速度は著しく向上した。
論文 参考訳(メタデータ) (2020-01-16T03:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。