論文の概要: Zero-shot Object-Centric Instruction Following: Integrating Foundation Models with Traditional Navigation
- arxiv url: http://arxiv.org/abs/2411.07848v2
- Date: Mon, 03 Mar 2025 17:33:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:09:36.892215
- Title: Zero-shot Object-Centric Instruction Following: Integrating Foundation Models with Traditional Navigation
- Title(参考訳): ゼロショットオブジェクト中心命令の追従:従来のナビゲーションと基礎モデルの統合
- Authors: Sonia Raychaudhuri, Duy Ta, Katrina Ashton, Angel X. Chang, Jiuguang Wang, Bernadette Bucher,
- Abstract要約: 大規模なシーンは、因子グラフ内のロボットのポーズと合わせて推定されるランドマークの3Dグラフで、堅牢かつ効率的にマッピングすることができる。
そこで本研究では,自然言語命令のゼロショット手法であるLanguage-Inferred Factor Graph for Instruction following (LIFGIF)を提案する。
ボストン・ダイナミクス・スポット・ロボットを用いた実世界におけるゼロショット物体中心指導におけるLIFGIFの有効性を実証した。
- 参考スコア(独自算出の注目度): 8.788856156414026
- License:
- Abstract: Large scale scenes such as multifloor homes can be robustly and efficiently mapped with a 3D graph of landmarks estimated jointly with robot poses in a factor graph, a technique commonly used in commercial robots such as drones and robot vacuums. In this work, we propose Language-Inferred Factor Graph for Instruction Following (LIFGIF), a zero-shot method to ground natural language instructions in such a map. LIFGIF also includes a policy for following natural language navigation instructions in a novel environment while the map is constructed, enabling robust navigation performance in the physical world. To evaluate LIFGIF, we present a new dataset, Object-Centric VLN (OC-VLN), in order to evaluate grounding of object-centric natural language navigation instructions. We compare to two state-of-the-art zero-shot baselines from related tasks, Object Goal Navigation and Vision Language Navigation, to demonstrate that LIFGIF outperforms them across all our evaluation metrics on OCVLN. Finally, we successfully demonstrate the effectiveness of LIFGIF for performing zero-shot object-centric instruction following in the real world on a Boston Dynamics Spot robot.
- Abstract(参考訳): マルチフロアハウスのような大規模なシーンは、ドローンやロボット掃除機などの商用ロボットで一般的に使用されるテクニックであるファクターグラフで、ロボットのポーズと共に推定されるランドマークの3Dグラフで、堅牢かつ効率的にマッピングすることができる。
そこで本研究では,自然言語命令のゼロショット手法であるLanguage-Inferred Factor Graph for Instruction following (LIFGIF)を提案する。
LIFGIFはまた、地図が構築されている間、新しい環境で自然言語のナビゲーション指示に従うポリシーを含み、物理的な世界で堅牢なナビゲーション性能を実現する。
LIFGIFを評価するために,対象中心の自然言語ナビゲーション命令のグラウンド化を評価するために,新しいデータセットであるObject-Centric VLN(OC-VLN)を提案する。
我々は、OCVLNのすべての評価指標においてLIFGIFがそれらより優れていることを示すために、関連するタスクであるObject Goal NavigationとVision Language Navigationの2つの最先端ゼロショットベースラインを比較した。
最後に,ボストン・ダイナミクス・スポット・ロボットを用いて,実世界におけるゼロショット物体中心の指示を実行するためのLIFGIFの有効性を実証した。
関連論文リスト
- InstructNav: Zero-shot System for Generic Instruction Navigation in Unexplored Environment [5.43847693345519]
本研究では,汎用的な命令ナビゲーションシステムであるInstructNavを提案する。
InstructNavは、ナビゲーショントレーニングやビルド済みのマップを使わずに、さまざまな命令ナビゲーションタスクを最初に処理する。
InstructNavでは、R2R-CEタスクを初めてゼロショットで完了し、多くのタスク学習方法より優れています。
論文 参考訳(メタデータ) (2024-06-07T12:26:34Z) - MC-GPT: Empowering Vision-and-Language Navigation with Memory Map and Reasoning Chains [4.941781282578696]
Vision-and-Language Navigation (VLN)タスクでは、エージェントは自然言語の指示に従って目的地に向かう必要がある。
学習ベースのアプローチはタスクに対する主要な解決策だが、高いトレーニングコストと解釈可能性の欠如に悩まされている。
近年、Large Language Models (LLMs) は強力な一般化能力のため、VLNにとって有望なツールとして登場した。
論文 参考訳(メタデータ) (2024-05-17T08:33:27Z) - OpenFMNav: Towards Open-Set Zero-Shot Object Navigation via Vision-Language Foundation Models [16.50443396055173]
ゼロショットオブジェクトナビゲーションのためのオープンセットファウンデーションモデルベースのフレームワークであるOpenFMNavを提案する。
まず,大規模言語モデルの推論能力を解き明かし,提案するオブジェクトを自然言語命令から抽出する。
次に、大規模視覚言語モデルの一般化可能性を活用して、シーンから候補対象を積極的に発見し、検出する。
論文 参考訳(メタデータ) (2024-02-16T13:21:33Z) - Vision and Language Navigation in the Real World via Online Visual
Language Mapping [18.769171505280127]
視覚・言語ナビゲーション(VLN)法は主にシミュレーションで評価される。
実世界のVLN課題に対処する新しい枠組みを提案する。
未確認実験環境において,Interbotix LoCoBot WX250を用いたパイプラインの評価を行った。
論文 参考訳(メタデータ) (2023-10-16T20:44:09Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - $A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting
Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。
通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。
これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文 参考訳(メタデータ) (2023-08-15T19:01:19Z) - KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation [61.08389704326803]
VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。
以前のアプローチのほとんどは、ナビゲート可能な候補を表現するために、機能全体やオブジェクト中心の機能を利用している。
本稿では,知識を活用したエージェントナビゲーション能力向上のための知識強化推論モデル(KERM)を提案する。
論文 参考訳(メタデータ) (2023-03-28T08:00:46Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - Learning to Stop: A Simple yet Effective Approach to Urban
Vision-Language Navigation [82.85487869172854]
本稿では,STOPと他のアクションを区別する簡易かつ効果的なポリシーモジュールであるLearning to Stop (L2Stop)を提案する。
提案手法は, 都市型VLNデータセットのタッチダウンにおいて, 編集距離(SED)の重み付けによる成功率に対して, ベースラインの6.89%(絶対改善)を上回った。
論文 参考訳(メタデータ) (2020-09-28T07:44:46Z) - Environment-agnostic Multitask Learning for Natural Language Grounded
Navigation [88.69873520186017]
本稿では,視覚言語ナビゲーション(VLN)タスクと対話履歴からのナビゲーション(NDH)タスクをシームレスにトレーニングできるマルチタスクナビゲーションモデルを提案する。
実験により、環境に依存しないマルチタスク学習は、目に見える環境と目に見えない環境の間のパフォーマンスギャップを著しく減少させることが示された。
論文 参考訳(メタデータ) (2020-03-01T09:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。