論文の概要: Loc4Plan: Locating Before Planning for Outdoor Vision and Language Navigation
- arxiv url: http://arxiv.org/abs/2408.05090v1
- Date: Fri, 9 Aug 2024 14:31:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 15:37:31.433061
- Title: Loc4Plan: Locating Before Planning for Outdoor Vision and Language Navigation
- Title(参考訳): Loc4Plan: アウトドアビジョンと言語ナビゲーションのための計画前の位置
- Authors: Huilin Tian, Jingke Meng, Wei-Shi Zheng, Yuan-Ming Li, Junkai Yan, Yunong Zhang,
- Abstract要約: VLN(Vision and Language Navigation)は、視覚環境において、エージェントが指示を理解し、目的地にナビゲートする必要がある課題である。
これまでの研究は主に、自然言語を視覚入力に基盤付けることに焦点を当てていたが、接地過程におけるエージェントの空間的位置情報の重要な役割を無視した。
本研究では,屋外VLNタスクにおける行動計画のための空間認識を取り入れた新しい枠組みであるLocating be for Planning(Loc4Plan)を紹介する。
- 参考スコア(独自算出の注目度): 31.509686652011798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision and Language Navigation (VLN) is a challenging task that requires agents to understand instructions and navigate to the destination in a visual environment.One of the key challenges in outdoor VLN is keeping track of which part of the instruction was completed. To alleviate this problem, previous works mainly focus on grounding the natural language to the visual input, but neglecting the crucial role of the agent's spatial position information in the grounding process. In this work, we first explore the substantial effect of spatial position locating on the grounding of outdoor VLN, drawing inspiration from human navigation. In real-world navigation scenarios, before planning a path to the destination, humans typically need to figure out their current location. This observation underscores the pivotal role of spatial localization in the navigation process. In this work, we introduce a novel framework, Locating be for Planning (Loc4Plan), designed to incorporate spatial perception for action planning in outdoor VLN tasks. The main idea behind Loc4Plan is to perform the spatial localization before planning a decision action based on corresponding guidance, which comprises a block-aware spatial locating (BAL) module and a spatial-aware action planning (SAP) module. Specifically, to help the agent perceive its spatial location in the environment, we propose to learn a position predictor that measures how far the agent is from the next intersection for reflecting its position, which is achieved by the BAL module. After the locating process, we propose the SAP module to incorporate spatial information to ground the corresponding guidance and enhance the precision of action planning. Extensive experiments on the Touchdown and map2seq datasets show that the proposed Loc4Plan outperforms the SOTA methods.
- Abstract(参考訳): VLN(Vision and Language Navigation)は、視覚環境において、エージェントが指示を理解し、目的地に向かうことを要求する課題である。
この問題を軽減するために、従来の研究は主に自然言語を視覚入力に基盤付けることに焦点を当てていたが、接地過程におけるエージェントの空間的位置情報の重要な役割を無視した。
本研究ではまず,空間的位置が屋外VLNの接地に与える影響について検討し,人間のナビゲーションからインスピレーションを得た。
現実のナビゲーションのシナリオでは、目的地への道を計画する前に、人間が現在位置を知る必要がある。
この観察は、航法過程における空間的局所化の重要な役割を浮き彫りにする。
本研究では,屋外VLNタスクにおける行動計画のための空間認識を取り入れた新しい枠組みであるLocating be for Planning(Loc4Plan)を紹介する。
Loc4Planの背景にある主な考え方は、ブロック対応空間位置決め(BAL)モジュールと空間対応行動計画(SAP)モジュールからなる、対応するガイダンスに基づいて決定動作を計画する前に空間的位置決めを行うことである。
具体的には,エージェントが環境中の空間的位置を認識するのを助けるために,BALモジュールによって達成される位置を反映する次の交差点からの距離を測定する位置予測器を学習することを提案する。
位置決め処理後,空間情報を組み込んだSAPモジュールを提案する。
Touchdownとmap2seqデータセットに関する大規模な実験は、提案されたLoc4PlanがSOTAメソッドより優れていることを示している。
関連論文リスト
- TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation [34.85111360243636]
MLLMをベースとしたTopV-Navを提案する。
MLLMの空間推論能力をトップビューで完全に解き放つために,適応型視覚プロンプト生成法(AVPG)を提案する。
また,動的マップスケーリング(DMS)機構を設計し,好みのスケールで動的にトップビューマップをズームする。
論文 参考訳(メタデータ) (2024-11-25T14:27:55Z) - Simultaneous Localization and Affordance Prediction for Tasks in Egocentric Video [18.14234312389889]
本稿では,視覚的インプットとタスク記述を結びつけるために,空間的局所化されたエゴセントリックビデオのトレーニングを行うシステムを提案する。
提案手法は,VLMを用いてタスク記述の類似性を位置タグ付き画像にマッピングする手法よりも優れていることを示す。
このシステムは、ロボットがエゴセントリックな感覚を使って、自然言語で指定された新しいタスクの物理的な場所をナビゲートすることを可能にする。
論文 参考訳(メタデータ) (2024-07-18T18:55:56Z) - Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。
我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。
挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2024-07-08T12:52:46Z) - SayNav: Grounding Large Language Models for Dynamic Planning to Navigation in New Environments [14.179677726976056]
SayNavは、Large Language Models(LLM)からの人間の知識を活用して、複雑なナビゲーションタスクを効率的に一般化する新しいアプローチである。
SayNavは最先端の結果を達成し、成功率の点で強烈な地道的な仮定でオラクルベースのベースラインを8%以上上回ります。
論文 参考訳(メタデータ) (2023-09-08T02:24:37Z) - Long-HOT: A Modular Hierarchical Approach for Long-Horizon Object
Transport [83.06265788137443]
我々は、時間的拡張ナビゲーションのための新しいオブジェクトトランスポートタスクと新しいモジュラーフレームワークを提案することで、長距離探査と航法を具現化する上で重要な課題に対処する。
私たちの最初の貢献は、深層探査と長期計画に焦点を当てた新しいLong-HOT環境の設計である。
重み付けされたフロンティアの助けを借りて探索を行うために,シーンのトポロジカルグラフを構築するモジュラー階層輸送ポリシー(HTP)を提案する。
論文 参考訳(メタデータ) (2022-10-28T05:30:49Z) - ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints [94.60414567852536]
長距離航法には、計画と局所的な移動可能性の推論の両方が必要である。
学習と計画を統合する学習に基づくアプローチを提案する。
ViKiNGは、画像ベースの学習コントローラを利用できる。
論文 参考訳(メタデータ) (2022-02-23T02:14:23Z) - Online Grounding of PDDL Domains by Acting and Sensing in Unknown
Environments [62.11612385360421]
本稿では,エージェントが異なるタスクを実行できるフレームワークを提案する。
機械学習モデルを統合して、感覚データを抽象化し、目標達成のためのシンボリックプランニング、ナビゲーションのためのパスプランニングを行う。
提案手法を,RGB-Dオンボードカメラ,GPS,コンパスなど,正確なシミュレーション環境で評価する。
論文 参考訳(メタデータ) (2021-12-18T21:48:20Z) - MPTP: Motion-Planning-aware Task Planning for Navigation in Belief Space [1.3535770763481902]
大規模環境におけるナビゲーションのための統合型タスク・モーション・プランニング・フレームワークを提案する。
このフレームワークは、動作中の運動計画と感覚の不確かさを意図している。
論文 参考訳(メタデータ) (2021-04-10T06:52:16Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。