Fugu-MT 論文翻訳(概要): PRET: Planning with Directed Fidelity Trajectory for Vision and Language Navigation

論文の概要: PRET: Planning with Directed Fidelity Trajectory for Vision and Language Navigation

arxiv url: http://arxiv.org/abs/2407.11487v1
Date: Tue, 16 Jul 2024 08:22:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 16:02:34.110595
Title: PRET: Planning with Directed Fidelity Trajectory for Vision and Language Navigation
Title（参考訳）: PreT: ビジョンと言語ナビゲーションのための指向性軌道による計画
Authors: Renjie Lu, Jingke Meng, Wei-Shi Zheng,
Abstract要約: 視覚と言語ナビゲーションは、エージェントが自然言語の指示に従ってナビゲートする必要があるタスクである。近年の手法では、各ステップで構築されたトポロジーマップのサブゴールを予測し、長期的な行動計画を可能にする。本稿では,指示と指向性軌道のアライメントを考慮し,ナビゲーション計画を容易にする方法を提案する。
参考スコア（独自算出の注目度）: 30.710806048991923
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision and language navigation is a task that requires an agent to navigate according to a natural language instruction. Recent methods predict sub-goals on constructed topology map at each step to enable long-term action planning. However, they suffer from high computational cost when attempting to support such high-level predictions with GCN-like models. In this work, we propose an alternative method that facilitates navigation planning by considering the alignment between instructions and directed fidelity trajectories, which refers to a path from the initial node to the candidate locations on a directed graph without detours. This planning strategy leads to an efficient model while achieving strong performance. Specifically, we introduce a directed graph to illustrate the explored area of the environment, emphasizing directionality. Then, we firstly define the trajectory representation as a sequence of directed edge features, which are extracted from the panorama based on the corresponding orientation. Ultimately, we assess and compare the alignment between instruction and different trajectories during navigation to determine the next navigation target. Our method outperforms previous SOTA method BEVBert on RxR dataset and is comparable on R2R dataset while largely reducing the computational cost. Code is available: https://github.com/iSEE-Laboratory/VLN-PRET.
Abstract（参考訳）: 視覚と言語ナビゲーションは、エージェントが自然言語の指示に従ってナビゲートする必要があるタスクである。近年の手法では、各ステップで構築されたトポロジーマップのサブゴールを予測し、長期的な行動計画を可能にする。しかし、GCNのようなモデルでそのような高いレベルの予測をサポートしようとすると、高い計算コストに悩まされる。本研究では,初期ノードから有向グラフ上の候補位置への経路を参照し,指示と指向性軌道のアライメントを考慮し,ナビゲーション計画を容易にする方法を提案する。この計画戦略は、高いパフォーマンスを達成しつつ、効率的なモデルにつながる。具体的には、環境の探索領域を図示する有向グラフを導入し、方向性を強調する。次に、まず、軌道表現を、対応する方向に基づいてパノラマから抽出された有向エッジ特徴の列として定義する。最終的に、ナビゲーション中の命令と異なるトラジェクトリのアライメントを評価し、比較し、次のナビゲーションターゲットを決定する。提案手法は,従来のSOTA法であるBEVBertをRxRデータセットで上回り,計算コストを大幅に削減しながらR2Rデータセットで比較する。コードはhttps://github.com/iSEE-Laboratory/VLN-PRET.comで入手できる。

関連論文リスト

SkeNa: Learning to Navigate Unseen Environments Based on Abstract Hand-Drawn Maps [20.963573846962987]
我々はSketch map-based visual Navigation (SkeNa)を紹介する。 SkeNaは、手書きのスケッチマップのみをガイダンスとして、エージェントが見えない環境でゴールに到達しなければならない、具体化されたナビゲーションタスクである。我々は,71の屋内シーンにわたる54k軌道とスケッチマップのペアからなる大規模データセットSoRを提案する。
論文参考訳（メタデータ） (2025-08-05T03:56:32Z)
TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation [3.2688425993442696]
視覚言語ナビゲーション(VLN)のためのモジュラーアプローチを提案する。ゼロショット設定では、最先端のLarge Language Models(LLM)とVision-Language Models(VLM)を使用します。共同意味マップを用いた他の手法と比較して優れた性能を示す。
論文参考訳（メタデータ） (2025-02-11T07:09:37Z)
NavTopo: Leveraging Topological Maps For Autonomous Navigation Of a Mobile Robot [1.0550841723235613]
トポロジマップと2段階の経路計画に基づく完全なナビゲーションパイプラインを提案する。パイプラインは、入力ポイントクラウドのニューラルネットワーク記述子と2Dプロジェクションをマッチングすることで、グラフにローカライズする。提案手法は,大規模な室内光相対論的シミュレーション環境でテストし,一般的な計量マッピング手法であるRTAB-MAPに基づく計量地図に基づく手法と比較する。
論文参考訳（メタデータ） (2024-10-15T10:54:49Z)
Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文参考訳（メタデータ） (2024-07-08T12:52:46Z)
Right Place, Right Time! Dynamizing Topological Graphs for Embodied Navigation [55.581423861790945]
身体的ナビゲーションのタスクは、探索中にシーンのトポロジカルグラフを構築することを伴うことが多い。我々は、オブジェクト遷移グラフ(OTG)と呼ばれる静的トポロジカルグラフをダイナマイズするために、構造化されたオブジェクト遷移を導入する。 OTGは、人間の習慣にインスパイアされた構造化経路に従って、ポータブルターゲットをシミュレートする。
論文参考訳（メタデータ） (2024-03-14T22:33:22Z)
Learning to Predict Navigational Patterns from Partial Observations [63.04492958425066]
本稿では,実環境におけるナビゲーションのパターンを,部分的な観察のみから推測する,初めての自己教師型学習(SSL)手法を提案する。我々は、DSLPフィールドに最大極大グラフを適合させることにより、グローバルなナビゲーションパターンを推論する方法を実証する。実験により,我々のSSLモデルはnuScenesデータセット上で2つのSOTA教師付きレーングラフ予測モデルより優れていることが示された。
論文参考訳（メタデータ） (2023-04-26T02:08:46Z)
ReVoLT: Relational Reasoning and Voronoi Local Graph Planning for Target-driven Navigation [1.0896567381206714]
Embodied AIは、知的な実体と現実世界の相互作用を強調する必然的なトレンドである。グラフニューラルネットワーク(GNN)によるレイアウト関係の活用に関する研究このタスクを分離し、階層的なフレームワークであるReVoLTを提案する。
論文参考訳（メタデータ） (2023-01-06T05:19:56Z)
Find a Way Forward: a Language-Guided Semantic Map Navigator [53.69229615952205]
本稿では,新たな視点で言語誘導ナビゲーションの問題に対処する。ロボットが自然言語の指示を実行し、地図観測に基づいて目標位置へ移動できるようにする。提案手法は特に長距離ナビゲーションの場合において顕著な性能向上をもたらす。
論文参考訳（メタデータ） (2022-03-07T07:40:33Z)
ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints [94.60414567852536]
長距離航法には、計画と局所的な移動可能性の推論の両方が必要である。学習と計画を統合する学習に基づくアプローチを提案する。 ViKiNGは、画像ベースの学習コントローラを利用できる。
論文参考訳（メタデータ） (2022-02-23T02:14:23Z)
Lifelong Topological Visual Navigation [16.41858724205884]
本稿では,生涯ナビゲーション性能を時間とともに向上させるグラフ更新戦略を用いた学習型ビジュアルナビゲーション手法を提案する。画像に基づくトポロジグラフを構築するためのサンプリングベースの計画アルゴリズムから着想を得た結果,スペーサーグラフはベースライン法に比べてナビゲーション性能が高い。固定的なトレーニング環境から学習するコントローラとは異なり、ロボットが配置される実環境から比較的小さなデータセットを使ってモデルを微調整できることが示される。
論文参考訳（メタデータ） (2021-10-16T06:16:14Z)
Waypoint Models for Instruction-guided Navigation in Continuous Environments [68.2912740006109]
本稿では,言語条件付きウェイポイント予測ネットワークのクラスを開発し,この問題について検討する。プロファイリングされたLoCoBotロボット上でのタスク性能と実行時間の推定を行う。我々のモデルは、VLN-CEにおける以前の仕事を上回り、新しい最先端の技術を公衆のリーダーボードに置きました。
論文参考訳（メタデータ） (2021-10-05T17:55:49Z)
SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文参考訳（メタデータ） (2021-03-31T15:01:04Z)
Topological Planning with Transformers for Vision-and-Language Navigation [31.64229792521241]
トポロジカルマップを用いた視覚・言語ナビゲーション(VLN)のモジュール化手法を提案する。自然言語指導とトポロジカルマップが与えられた場合,マップ内のナビゲーション計画を予測するために注意機構を利用する。実験では,従来のエンドツーエンドアプローチを上回り,解釈可能なナビゲーションプランを生成し,バックトラックなどのインテリジェントな行動を示す。
論文参考訳（メタデータ） (2020-12-09T20:02:03Z)
High-Level Plan for Behavioral Robot Navigation with Natural Language Directions and R-NET [6.47137925955334]
我々は,経路を表す行動列をポインタネットワークが生成できるように,行動ナビゲーショングラフの理解を深める。ナビゲーショングラフデータセットのテストでは、我々のモデルは既知の環境と未知の環境の両方において最先端のアプローチよりも優れています。
論文参考訳（メタデータ） (2020-01-08T01:14:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。