論文の概要: Target-Driven Structured Transformer Planner for Vision-Language
Navigation
- arxiv url: http://arxiv.org/abs/2207.11201v1
- Date: Tue, 19 Jul 2022 06:46:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-31 14:15:42.881015
- Title: Target-Driven Structured Transformer Planner for Vision-Language
Navigation
- Title(参考訳): 視覚言語ナビゲーションのための目標駆動構造変圧器プランナー
- Authors: Yusheng Zhao, Jinyu Chen, Chen Gao, Wenguan Wang, Lirong Yang, Haibing
Ren, Huaxia Xia, Si Liu
- Abstract要約: 本稿では,TD-STP(Target-Driven Structured Transformer Planner)を提案する。
具体的には,長期目標の明示的な推定を行うため,Imaginary Scene Tokenization機構を考案する。
さらに,調査室のレイアウトを構造的かつグローバルな計画のためのニューラルアテンションアーキテクチャにエレガントに組み込んだ構造化トランスフォーマープランナーを設計する。
- 参考スコア(独自算出の注目度): 55.81329263674141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language navigation is the task of directing an embodied agent to
navigate in 3D scenes with natural language instructions. For the agent,
inferring the long-term navigation target from visual-linguistic clues is
crucial for reliable path planning, which, however, has rarely been studied
before in literature. In this article, we propose a Target-Driven Structured
Transformer Planner (TD-STP) for long-horizon goal-guided and room layout-aware
navigation. Specifically, we devise an Imaginary Scene Tokenization mechanism
for explicit estimation of the long-term target (even located in unexplored
environments). In addition, we design a Structured Transformer Planner which
elegantly incorporates the explored room layout into a neural attention
architecture for structured and global planning. Experimental results
demonstrate that our TD-STP substantially improves previous best methods'
success rate by 2% and 5% on the test set of R2R and REVERIE benchmarks,
respectively. Our code is available at https://github.com/YushengZhao/TD-STP .
- Abstract(参考訳): 視覚言語ナビゲーションは、インボディードエージェントが自然言語で3Dシーンをナビゲートするタスクである。
このエージェントは、視覚言語手がかりから長期航法目標を推測することが信頼性の高い経路計画に不可欠であるが、文献で研究されることは稀である。
本稿では,長期ホリゾン目標誘導および室内レイアウト対応ナビゲーションのための,目標駆動型構造化トランスフォーマープランナー(td-stp)を提案する。
具体的には,(未探査環境においても)長期的目標を明示的に推定するための虚構的シーントークン化機構を考案する。
さらに,調査室のレイアウトを構造的かつグローバルな計画のためのニューラルアテンションアーキテクチャにエレガントに組み込んだ構造化トランスフォーマープランナーを設計する。
実験の結果,td-stpは,r2rテストセットとreverieベンチマークテストにおいて,従来のベストメソッドの成功率を2%,5%向上させた。
私たちのコードはhttps://github.com/YushengZhao/TD-STP で利用可能です。
関連論文リスト
- PRET: Planning with Directed Fidelity Trajectory for Vision and Language Navigation [30.710806048991923]
視覚と言語ナビゲーションは、エージェントが自然言語の指示に従ってナビゲートする必要があるタスクである。
近年の手法では、各ステップで構築されたトポロジーマップのサブゴールを予測し、長期的な行動計画を可能にする。
本稿では,指示と指向性軌道のアライメントを考慮し,ナビゲーション計画を容易にする方法を提案する。
論文 参考訳(メタデータ) (2024-07-16T08:22:18Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints [94.60414567852536]
長距離航法には、計画と局所的な移動可能性の推論の両方が必要である。
学習と計画を統合する学習に基づくアプローチを提案する。
ViKiNGは、画像ベースの学習コントローラを利用できる。
論文 参考訳(メタデータ) (2022-02-23T02:14:23Z) - SOAT: A Scene- and Object-Aware Transformer for Vision-and-Language
Navigation [57.12508968239015]
本研究は,トランスフォーマーを用いた視覚言語ナビゲーション (VLN) エージェントを提案する。
シーン分類ネットワークとオブジェクト検出器の2つの異なるビジュアルエンコーダを使用する。
シーン機能は、オブジェクトレベルの処理をサポートする高レベルなコンテキスト情報を提供する。
論文 参考訳(メタデータ) (2021-10-27T03:29:34Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z) - Evolving Graphical Planner: Contextual Global Planning for
Vision-and-Language Navigation [47.79784520827089]
Evolving Graphical Planner (EGP, Evolving Graphical Planner) は, 生の知覚入力に基づくナビゲーションのグローバルプランニングを行うモデルである。
本稿では,フォトリアリスティック画像を用いた視覚・言語ナビゲーション(VLN)タスクの課題について評価し,従来のナビゲーションアーキテクチャと比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T00:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。