論文の概要: NL-SLAM for OC-VLN: Natural Language Grounded SLAM for Object-Centric VLN
- arxiv url: http://arxiv.org/abs/2411.07848v1
- Date: Tue, 12 Nov 2024 15:01:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:20:29.785067
- Title: NL-SLAM for OC-VLN: Natural Language Grounded SLAM for Object-Centric VLN
- Title(参考訳): OC-VLNのためのNL-SLAM:オブジェクト中心VLNのための自然言語基底SLAM
- Authors: Sonia Raychaudhuri, Duy Ta, Katrina Ashton, Angel X. Chang, Jiuguang Wang, Bernadette Bucher,
- Abstract要約: 我々は,オブジェクト中心の自然言語ナビゲーション命令を明確に評価するために,新しいデータセットOC-VLNを提案する。
また,ロボットの観察とポーズに対する自然言語指導手法である自然言語接地SLAM(NL-SLAM)を提案する。
- 参考スコア(独自算出の注目度): 8.788856156414026
- License:
- Abstract: Landmark-based navigation (e.g. go to the wooden desk) and relative positional navigation (e.g. move 5 meters forward) are distinct navigation challenges solved very differently in existing robotics navigation methodology. We present a new dataset, OC-VLN, in order to distinctly evaluate grounding object-centric natural language navigation instructions in a method for performing landmark-based navigation. We also propose Natural Language grounded SLAM (NL-SLAM), a method to ground natural language instruction to robot observations and poses. We actively perform NL-SLAM in order to follow object-centric natural language navigation instructions. Our methods leverage pre-trained vision and language foundation models and require no task-specific training. We construct two strong baselines from state-of-the-art methods on related tasks, Object Goal Navigation and Vision Language Navigation, and we show that our approach, NL-SLAM, outperforms these baselines across all our metrics of success on OC-VLN. Finally, we successfully demonstrate the effectiveness of NL-SLAM for performing navigation instruction following in the real world on a Boston Dynamics Spot robot.
- Abstract(参考訳): ランドマークベースのナビゲーション(例:木製の机)と相対的な位置ナビゲーション(例:5メートル前進)は、既存のロボティクスナビゲーション手法で非常に異なる方法で解決されたナビゲーションの課題である。
本稿では,ランドマークに基づくナビゲーションを行う手法として,オブジェクト中心の自然言語ナビゲーション命令を明確に評価するために,新しいデータセットOC-VLNを提案する。
また,ロボットの観察とポーズに対する自然言語指導手法である自然言語接地SLAM(NL-SLAM)を提案する。
我々はオブジェクト中心の自然言語ナビゲーション命令に従うためにNL-SLAMを積極的に実行します。
本手法は,事前学習した視覚と言語基盤モデルを活用し,タスク固有の訓練を必要としない。
対象目標ナビゲーション(Object Goal Navigation)とビジョン言語ナビゲーション(Vision Language Navigation)という,関連タスクの最先端手法による2つの強力なベースラインを構築し,そのアプローチであるNL-SLAM(NL-SLAM)が,OC-VLNにおける成功指標のすべてにおいて,これらのベースラインよりも優れていることを示す。
最後に,ボストン・ダイナミクス・スポット・ロボットを用いたナビゲーション指導におけるNL-SLAMの有効性を示す。
関連論文リスト
- InstructNav: Zero-shot System for Generic Instruction Navigation in Unexplored Environment [5.43847693345519]
本研究では,汎用的な命令ナビゲーションシステムであるInstructNavを提案する。
InstructNavは、ナビゲーショントレーニングやビルド済みのマップを使わずに、さまざまな命令ナビゲーションタスクを最初に処理する。
InstructNavでは、R2R-CEタスクを初めてゼロショットで完了し、多くのタスク学習方法より優れています。
論文 参考訳(メタデータ) (2024-06-07T12:26:34Z) - MC-GPT: Empowering Vision-and-Language Navigation with Memory Map and Reasoning Chains [4.941781282578696]
Vision-and-Language Navigation (VLN)タスクでは、エージェントは自然言語の指示に従って目的地に向かう必要がある。
学習ベースのアプローチはタスクに対する主要な解決策だが、高いトレーニングコストと解釈可能性の欠如に悩まされている。
近年、Large Language Models (LLMs) は強力な一般化能力のため、VLNにとって有望なツールとして登場した。
論文 参考訳(メタデータ) (2024-05-17T08:33:27Z) - OpenFMNav: Towards Open-Set Zero-Shot Object Navigation via Vision-Language Foundation Models [16.50443396055173]
ゼロショットオブジェクトナビゲーションのためのオープンセットファウンデーションモデルベースのフレームワークであるOpenFMNavを提案する。
まず,大規模言語モデルの推論能力を解き明かし,提案するオブジェクトを自然言語命令から抽出する。
次に、大規模視覚言語モデルの一般化可能性を活用して、シーンから候補対象を積極的に発見し、検出する。
論文 参考訳(メタデータ) (2024-02-16T13:21:33Z) - Vision and Language Navigation in the Real World via Online Visual
Language Mapping [18.769171505280127]
視覚・言語ナビゲーション(VLN)法は主にシミュレーションで評価される。
実世界のVLN課題に対処する新しい枠組みを提案する。
未確認実験環境において,Interbotix LoCoBot WX250を用いたパイプラインの評価を行った。
論文 参考訳(メタデータ) (2023-10-16T20:44:09Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - $A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting
Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。
通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。
これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文 参考訳(メタデータ) (2023-08-15T19:01:19Z) - KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation [61.08389704326803]
VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。
以前のアプローチのほとんどは、ナビゲート可能な候補を表現するために、機能全体やオブジェクト中心の機能を利用している。
本稿では,知識を活用したエージェントナビゲーション能力向上のための知識強化推論モデル(KERM)を提案する。
論文 参考訳(メタデータ) (2023-03-28T08:00:46Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - Learning to Stop: A Simple yet Effective Approach to Urban
Vision-Language Navigation [82.85487869172854]
本稿では,STOPと他のアクションを区別する簡易かつ効果的なポリシーモジュールであるLearning to Stop (L2Stop)を提案する。
提案手法は, 都市型VLNデータセットのタッチダウンにおいて, 編集距離(SED)の重み付けによる成功率に対して, ベースラインの6.89%(絶対改善)を上回った。
論文 参考訳(メタデータ) (2020-09-28T07:44:46Z) - Environment-agnostic Multitask Learning for Natural Language Grounded
Navigation [88.69873520186017]
本稿では,視覚言語ナビゲーション(VLN)タスクと対話履歴からのナビゲーション(NDH)タスクをシームレスにトレーニングできるマルチタスクナビゲーションモデルを提案する。
実験により、環境に依存しないマルチタスク学習は、目に見える環境と目に見えない環境の間のパフォーマンスギャップを著しく減少させることが示された。
論文 参考訳(メタデータ) (2020-03-01T09:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。