論文の概要: Evolving Graphical Planner: Contextual Global Planning for
Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2007.05655v1
- Date: Sat, 11 Jul 2020 00:21:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 13:17:02.041965
- Title: Evolving Graphical Planner: Contextual Global Planning for
Vision-and-Language Navigation
- Title(参考訳): 図形プランナの進化:視覚・言語ナビゲーションのための文脈的グローバルプランニング
- Authors: Zhiwei Deng, Karthik Narasimhan, Olga Russakovsky
- Abstract要約: Evolving Graphical Planner (EGP, Evolving Graphical Planner) は, 生の知覚入力に基づくナビゲーションのグローバルプランニングを行うモデルである。
本稿では,フォトリアリスティック画像を用いた視覚・言語ナビゲーション(VLN)タスクの課題について評価し,従来のナビゲーションアーキテクチャと比較して優れた性能を実現する。
- 参考スコア(独自算出の注目度): 47.79784520827089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to perform effective planning is crucial for building an
instruction-following agent. When navigating through a new environment, an
agent is challenged with (1) connecting the natural language instructions with
its progressively growing knowledge of the world; and (2) performing long-range
planning and decision making in the form of effective exploration and error
correction. Current methods are still limited on both fronts despite extensive
efforts. In this paper, we introduce the Evolving Graphical Planner (EGP), a
model that performs global planning for navigation based on raw sensory input.
The model dynamically constructs a graphical representation, generalizes the
action space to allow for more flexible decision making, and performs efficient
planning on a proxy graph representation. We evaluate our model on a
challenging Vision-and-Language Navigation (VLN) task with photorealistic
images and achieve superior performance compared to previous navigation
architectures. For instance, we achieve a 53% success rate on the test split of
the Room-to-Room navigation task through pure imitation learning, outperforming
previous navigation architectures by up to 5%.
- Abstract(参考訳): 効果的な計画を行う能力は、指示追従エージェントの構築に不可欠である。
エージェントは、新しい環境をナビゲートする際に、(1)自然言語の指示と世界の知識を徐々に成長させていくこと、(2)効果的な探索と誤り訂正という形で長距離計画と意思決定を行うことに挑戦する。
現在の手法は、広範囲な努力にもかかわらず、両面ではまだ限られている。
本稿では,生の感覚入力に基づくナビゲーションのグローバル計画を行うモデルとして,進化するグラフィカルプランナー(egp)を提案する。
モデルはグラフィカル表現を動的に構築し、アクション空間を一般化し、より柔軟な意思決定を可能にし、プロキシグラフ表現の効率的な計画を実行する。
本研究は,フォトリアリスティックな画像を用いたvln課題について評価し,従来のナビゲーションアーキテクチャよりも優れた性能を実現する。
例えば、部屋間ナビゲーションタスクのテスト分割において、純粋な模倣学習によって53%の成功率を達成し、従来のナビゲーションアーキテクチャを最大5%上回った。
関連論文リスト
- Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。
提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。
継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文 参考訳(メタデータ) (2024-02-29T06:31:18Z) - Towards Learning a Generalist Model for Embodied Navigation [24.816490551945435]
そこで本研究では,NaviLLM を具体化するための最初のジェネラリストモデルを提案する。
スキーマベースの命令を導入することで、LCMをナビゲーションの具体化に適応する。
我々は,モデルの性能と一般化性を評価するため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-12-04T16:32:51Z) - E(2)-Equivariant Graph Planning for Navigation [26.016209191573605]
2次元ナビゲーションの計画においてユークリッド対称性を利用する。
非構造環境の課題に対処するため,幾何グラフの計画としてナビゲーション問題を定式化する。
論文 参考訳(メタデータ) (2023-09-22T17:59:48Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - Improving Vision-and-Language Navigation by Generating Future-View Image
Semantics [96.8435716885159]
VLN(Vision-and-Language Navigation)は、自然言語命令に基づいてエージェントが環境をナビゲートする必要があるタスクである。
エージェントのドメイン内事前トレーニングにおける3つのプロキシタスクを提案する: Masked Panorama Modeling (MPM)、 Masked Trajectory Modeling (MTM)、Action Prediction with Image Generation (APIG)。
次に、VLNタスク上のエージェントを補助的損失で微調整し、エージェントが生成するビューセマンティクスと次のステップのグラウンド真実ビューセマンティクスとの差を最小限に抑える。
論文 参考訳(メタデータ) (2023-04-11T00:36:02Z) - Target-Driven Structured Transformer Planner for Vision-Language
Navigation [55.81329263674141]
本稿では,TD-STP(Target-Driven Structured Transformer Planner)を提案する。
具体的には,長期目標の明示的な推定を行うため,Imaginary Scene Tokenization機構を考案する。
さらに,調査室のレイアウトを構造的かつグローバルな計画のためのニューラルアテンションアーキテクチャにエレガントに組み込んだ構造化トランスフォーマープランナーを設計する。
論文 参考訳(メタデータ) (2022-07-19T06:46:21Z) - Waypoint Models for Instruction-guided Navigation in Continuous
Environments [68.2912740006109]
本稿では,言語条件付きウェイポイント予測ネットワークのクラスを開発し,この問題について検討する。
プロファイリングされたLoCoBotロボット上でのタスク性能と実行時間の推定を行う。
我々のモデルは、VLN-CEにおける以前の仕事を上回り、新しい最先端の技術を公衆のリーダーボードに置きました。
論文 参考訳(メタデータ) (2021-10-05T17:55:49Z) - Towards Learning a Generic Agent for Vision-and-Language Navigation via
Pre-training [150.35927365127176]
視覚・言語ナビゲーション(VLN)タスクのための,最初の事前学習および微調整パラダイムを提案する。
自己教師付き学習方式で大量の画像-テキスト-アクション三つ子を訓練することにより、事前学習されたモデルは、視覚環境と言語命令の一般的な表現を提供する。
新たなタスクにおいてより効果的に学習し、以前は目に見えない環境でより良く一般化する。
論文 参考訳(メタデータ) (2020-02-25T03:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。