論文の概要: Language-Aligned Waypoint (LAW) Supervision for Vision-and-Language
Navigation in Continuous Environments
- arxiv url: http://arxiv.org/abs/2109.15207v1
- Date: Thu, 30 Sep 2021 15:28:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 15:02:41.218651
- Title: Language-Aligned Waypoint (LAW) Supervision for Vision-and-Language
Navigation in Continuous Environments
- Title(参考訳): 連続環境における視覚・言語ナビゲーションのためのLanguage-Aligned Waypoint (LAW) スーパービジョン
- Authors: Sonia Raychaudhuri and Saim Wani and Shivansh Patel and Unnat Jain and
Angel X. Chang
- Abstract要約: Vision-and-Language Navigation (VLN)タスクでは、エンボディエージェントが自然言語の指示に従って3D環境をナビゲートする。
このタスクの課題は、エージェントが参照パスからフェールする‘経路外’シナリオをどのように扱うかである。
本稿では,ナビゲーション中にエージェントが完了したサブインストラクションの数を測定するための,シンプルで効果的な言語対応型監視手法を提案する。
- 参考スコア(独自算出の注目度): 17.42552136796418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the Vision-and-Language Navigation (VLN) task an embodied agent navigates
a 3D environment, following natural language instructions. A challenge in this
task is how to handle 'off the path' scenarios where an agent veers from a
reference path. Prior work supervises the agent with actions based on the
shortest path from the agent's location to the goal, but such goal-oriented
supervision is often not in alignment with the instruction. Furthermore, the
evaluation metrics employed by prior work do not measure how much of a language
instruction the agent is able to follow. In this work, we propose a simple and
effective language-aligned supervision scheme, and a new metric that measures
the number of sub-instructions the agent has completed during navigation.
- Abstract(参考訳): 視覚言語ナビゲーション(vln)タスクでは、具体化エージェントが自然言語命令に従って3d環境をナビゲートする。
このタスクの課題は、エージェントが参照パスからフェールする‘経路外’シナリオをどのように扱うかである。
事前作業はエージェントの位置から目標までの最短経路に基づいてエージェントにアクションを監督するが、そのような目標指向の監督は指示と一致しないことが多い。
さらに、先行作業で使用される評価指標は、エージェントが追跡可能な言語命令の量を測定するものではない。
そこで本研究では,単純かつ効果的な言語対応型監督スキームと,エージェントがナビゲーション中に完了したサブインストラクション数を測定する新しいメトリックを提案する。
関連論文リスト
- SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts [54.11162991206203]
本稿では,多様なナビゲーションタスクを統一的で汎用的なフレームワークに統合する。
本稿では,エージェントによる意思決定の推論を効果的に行うことのできる,新しい状態適応型エキスパート混合モデルを提案する。
論文 参考訳(メタデータ) (2024-12-07T06:12:53Z) - Improving Zero-Shot ObjectNav with Generative Communication [60.84730028539513]
ゼロショットObjectNavの改良手法を提案する。
私たちのアプローチは、接地エージェントが制限され、時には障害のあるビューを持つ可能性があることを考慮に入れています。
論文 参考訳(メタデータ) (2024-08-03T22:55:26Z) - I2EDL: Interactive Instruction Error Detection and Localization [65.25839671641218]
連続環境(IVLN-CE)における対話型VLNの新たな課題を提案する。
これにより、VLN-CEナビゲーション中にエージェントがユーザと対話し、命令エラーに関する疑念を検証できる。
我々は、事前学習したモジュールを利用して命令エラーを検出し、テキスト入力と過去の観察を相互参照することで、命令中のそれらをピンポイントする。
論文 参考訳(メタデータ) (2024-06-07T16:52:57Z) - Accessible Instruction-Following Agent [0.0]
UVLNは、言語間視覚言語ナビゲーションのための新しい機械翻訳命令拡張フレームワークである。
我々は、標準VLNトレーニング目標を言語間エンコーダを介して多言語設定に拡張する。
Room Across Roomデータセットによる実験は、我々のアプローチの有効性を証明する。
論文 参考訳(メタデータ) (2023-05-08T23:57:26Z) - Improving Vision-and-Language Navigation by Generating Future-View Image
Semantics [96.8435716885159]
VLN(Vision-and-Language Navigation)は、自然言語命令に基づいてエージェントが環境をナビゲートする必要があるタスクである。
エージェントのドメイン内事前トレーニングにおける3つのプロキシタスクを提案する: Masked Panorama Modeling (MPM)、 Masked Trajectory Modeling (MTM)、Action Prediction with Image Generation (APIG)。
次に、VLNタスク上のエージェントを補助的損失で微調整し、エージェントが生成するビューセマンティクスと次のステップのグラウンド真実ビューセマンティクスとの差を最小限に抑える。
論文 参考訳(メタデータ) (2023-04-11T00:36:02Z) - Lana: A Language-Capable Navigator for Instruction Following and
Generation [70.76686546473994]
LANAは言語対応のナビゲーションエージェントで、人書きのナビゲーションコマンドを実行し、人へのルート記述を提供することができる。
我々は、最近の高度なタスク固有解と比較して、LANAが命令追従と経路記述の両方においてより良い性能を発揮することを実証的に検証した。
加えて、言語生成能力が与えられたLANAは、人間の行動を説明し、人間のウェイフィンディングを支援することができる。
論文 参考訳(メタデータ) (2023-03-15T07:21:28Z) - Visual-and-Language Navigation: A Survey and Taxonomy [1.0742675209112622]
本稿では,ビジュアル・アンド・ランゲージ・ナビゲーション(VLN)タスクに関する総合的な調査を行う。
命令が与えられたら、タスクはシングルターンとマルチターンに分けられる。
この分類学は、研究者が特定のタスクの要点をよりよく把握し、将来の研究の方向性を特定することを可能にする。
論文 参考訳(メタデータ) (2021-08-26T01:51:18Z) - Improving Cross-Modal Alignment in Vision Language Navigation via
Syntactic Information [83.62098382773266]
ビジョン言語ナビゲーションは、エージェントが自然言語の指示に基づいて3D環境をナビゲートする必要があるタスクです。
命令と現在の視覚シーンの整合性を高めるために,依存木から派生した構文情報を利用したナビゲーションエージェントを提案する。
このエージェントは3つの言語による命令を含むroom-across-roomデータセットの新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-19T19:18:41Z) - Are We There Yet? Learning to Localize in Embodied Instruction Following [1.7300690315775575]
Action Learning From Realistic Environments and Directives (ALFRED)は、この問題に対する最近提案されたベンチマークである。
このタスクの主な課題は、ターゲット位置のローカライズと、視覚的な入力によるナビゲーションである。
ナビゲーションサブゴール中のエージェントの視野を複数の視野角で拡張し、各タイムステップでターゲット位置に対する相対的な空間的関係を予測するようにエージェントを訓練します。
論文 参考訳(メタデータ) (2021-01-09T21:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。