Fugu-MT 論文翻訳(概要): NL-SLAM for OC-VLN: Natural Language Grounded SLAM for Object-Centric VLN

論文の概要: NL-SLAM for OC-VLN: Natural Language Grounded SLAM for Object-Centric VLN

arxiv url: http://arxiv.org/abs/2411.07848v1
Date: Tue, 12 Nov 2024 15:01:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.954463
Title: NL-SLAM for OC-VLN: Natural Language Grounded SLAM for Object-Centric VLN
Title（参考訳）: OC-VLNのためのNL-SLAM:オブジェクト中心VLNのための自然言語基底SLAM
Authors: Sonia Raychaudhuri, Duy Ta, Katrina Ashton, Angel X. Chang, Jiuguang Wang, Bernadette Bucher,
Abstract要約: 我々は,オブジェクト中心の自然言語ナビゲーション命令を明確に評価するために,新しいデータセットOC-VLNを提案する。また,ロボットの観察とポーズに対する自然言語指導手法である自然言語接地SLAM(NL-SLAM)を提案する。
参考スコア（独自算出の注目度）: 8.788856156414026
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Landmark-based navigation (e.g. go to the wooden desk) and relative positional navigation (e.g. move 5 meters forward) are distinct navigation challenges solved very differently in existing robotics navigation methodology. We present a new dataset, OC-VLN, in order to distinctly evaluate grounding object-centric natural language navigation instructions in a method for performing landmark-based navigation. We also propose Natural Language grounded SLAM (NL-SLAM), a method to ground natural language instruction to robot observations and poses. We actively perform NL-SLAM in order to follow object-centric natural language navigation instructions. Our methods leverage pre-trained vision and language foundation models and require no task-specific training. We construct two strong baselines from state-of-the-art methods on related tasks, Object Goal Navigation and Vision Language Navigation, and we show that our approach, NL-SLAM, outperforms these baselines across all our metrics of success on OC-VLN. Finally, we successfully demonstrate the effectiveness of NL-SLAM for performing navigation instruction following in the real world on a Boston Dynamics Spot robot.
Abstract（参考訳）: ランドマークベースのナビゲーション(例:木製の机)と相対的な位置ナビゲーション(例:5メートル前進)は、既存のロボティクスナビゲーション手法で非常に異なる方法で解決されたナビゲーションの課題である。本稿では,ランドマークに基づくナビゲーションを行う手法として,オブジェクト中心の自然言語ナビゲーション命令を明確に評価するために,新しいデータセットOC-VLNを提案する。また,ロボットの観察とポーズに対する自然言語指導手法である自然言語接地SLAM(NL-SLAM)を提案する。我々はオブジェクト中心の自然言語ナビゲーション命令に従うためにNL-SLAMを積極的に実行します。本手法は,事前学習した視覚と言語基盤モデルを活用し,タスク固有の訓練を必要としない。対象目標ナビゲーション(Object Goal Navigation)とビジョン言語ナビゲーション(Vision Language Navigation)という,関連タスクの最先端手法による2つの強力なベースラインを構築し,そのアプローチであるNL-SLAM(NL-SLAM)が,OC-VLNにおける成功指標のすべてにおいて,これらのベースラインよりも優れていることを示す。最後に,ボストン・ダイナミクス・スポット・ロボットを用いたナビゲーション指導におけるNL-SLAMの有効性を示す。

関連論文リスト

InstructNav: Zero-shot System for Generic Instruction Navigation in Unexplored Environment [5.43847693345519]
本研究では,汎用的な命令ナビゲーションシステムであるInstructNavを提案する。 InstructNavは、ナビゲーショントレーニングやビルド済みのマップを使わずに、さまざまな命令ナビゲーションタスクを最初に処理する。 InstructNavでは、R2R-CEタスクを初めてゼロショットで完了し、多くのタスク学習方法より優れています。
論文参考訳（メタデータ） (2024-06-07T12:26:34Z)
MC-GPT: Empowering Vision-and-Language Navigation with Memory Map and Reasoning Chains [4.941781282578696]
Vision-and-Language Navigation (VLN)タスクでは、エージェントは自然言語の指示に従って目的地に向かう必要がある。学習ベースのアプローチはタスクに対する主要な解決策だが、高いトレーニングコストと解釈可能性の欠如に悩まされている。近年、Large Language Models (LLMs) は強力な一般化能力のため、VLNにとって有望なツールとして登場した。
論文参考訳（メタデータ） (2024-05-17T08:33:27Z)
GOAT-Bench: A Benchmark for Multi-Modal Lifelong Navigation [65.71524410114797]
GOAT-BenchはユニバーサルナビゲーションタスクGO to AnyThing(GOAT)のベンチマークである。 GOATでは、エージェントはカテゴリ名、言語記述、イメージによって指定されたターゲットのシーケンスにナビゲートするように指示される。我々はGOATタスク上でモノリシックなRLおよびモジュラーメソッドをベンチマークし、その性能をモダリティにわたって分析する。
論文参考訳（メタデータ） (2024-04-09T20:40:00Z)
Right Place, Right Time! Dynamizing Topological Graphs for Embodied Navigation [55.581423861790945]
身体的ナビゲーションのタスクは、探索中にシーンのトポロジカルグラフを構築することを伴うことが多い。我々は、オブジェクト遷移グラフ(OTG)と呼ばれる静的トポロジカルグラフをダイナマイズするために、構造化されたオブジェクト遷移を導入する。 OTGは、人間の習慣にインスパイアされた構造化経路に従って、ポータブルターゲットをシミュレートする。
論文参考訳（メタデータ） (2024-03-14T22:33:22Z)
OpenFMNav: Towards Open-Set Zero-Shot Object Navigation via Vision-Language Foundation Models [16.50443396055173]
ゼロショットオブジェクトナビゲーションのためのオープンセットファウンデーションモデルベースのフレームワークであるOpenFMNavを提案する。まず,大規模言語モデルの推論能力を解き明かし,提案するオブジェクトを自然言語命令から抽出する。次に、大規模視覚言語モデルの一般化可能性を活用して、シーンから候補対象を積極的に発見し、検出する。
論文参考訳（メタデータ） (2024-02-16T13:21:33Z)
VLFM: Vision-Language Frontier Maps for Zero-Shot Semantic Navigation [36.31724466541213]
ゼロショットナビゲーションアプローチであるビジョンランゲージフロンティアマップ(VLFM)を導入する。 VLFMは人間の推論にインスパイアされ、新しい環境における見えないセマンティックなオブジェクトにナビゲートするように設計されている。我々は,ギブソン,ハビタット・マテルポート3D (HM3D) およびマターポート3D (MP3D) のシミュレータを用いて,写真実写環境における VLFM の評価を行った。
論文参考訳（メタデータ） (2023-12-06T04:02:28Z)
Localizing Active Objects from Egocentric Vision with Symbolic World Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。 Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文参考訳（メタデータ） (2023-10-23T16:14:05Z)
Vision and Language Navigation in the Real World via Online Visual Language Mapping [18.769171505280127]
視覚・言語ナビゲーション(VLN)法は主にシミュレーションで評価される。実世界のVLN課題に対処する新しい枠組みを提案する。未確認実験環境において,Interbotix LoCoBot WX250を用いたパイプラインの評価を行った。
論文参考訳（メタデータ） (2023-10-16T20:44:09Z)
LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文参考訳（メタデータ） (2023-10-11T20:52:30Z)
$A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文参考訳（メタデータ） (2023-08-15T19:01:19Z)
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文参考訳（メタデータ） (2023-07-12T07:40:48Z)
KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation [61.08389704326803]
VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。以前のアプローチのほとんどは、ナビゲート可能な候補を表現するために、機能全体やオブジェクト中心の機能を利用している。本稿では,知識を活用したエージェントナビゲーション能力向上のための知識強化推論モデル(KERM)を提案する。
論文参考訳（メタデータ） (2023-03-28T08:00:46Z)
Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文参考訳（メタデータ） (2023-03-06T20:19:19Z)
LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文参考訳（メタデータ） (2022-07-10T10:41:50Z)
CLIP on Wheels: Zero-Shot Object Navigation as Object Localization and Exploration [31.18818639097139]
本稿では、ゼロショットビジョンモデルの成功を、オブジェクトナビゲーションの一般的な具体的AIタスクに翻訳する。タスクのためのCLIP on Wheels(CoW)ベースラインを設計し、HabitatとRoboTHORのシミュレータで各ゼロショットモデルを評価する。私たちは、CLIPベースのオブジェクトローカライゼーションと古典的な探索、追加のトレーニングのない単純なCoWが、データセットの分散シフトの成功、効率、堅牢性という点で、学習可能なアプローチよりも優れています。
論文参考訳（メタデータ） (2022-03-20T00:52:45Z)
SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文参考訳（メタデータ） (2021-03-31T15:01:04Z)
Learning to Stop: A Simple yet Effective Approach to Urban Vision-Language Navigation [82.85487869172854]
本稿では,STOPと他のアクションを区別する簡易かつ効果的なポリシーモジュールであるLearning to Stop (L2Stop)を提案する。提案手法は, 都市型VLNデータセットのタッチダウンにおいて, 編集距離(SED)の重み付けによる成功率に対して, ベースラインの6.89%(絶対改善)を上回った。
論文参考訳（メタデータ） (2020-09-28T07:44:46Z)
Environment-agnostic Multitask Learning for Natural Language Grounded Navigation [88.69873520186017]
本稿では,視覚言語ナビゲーション(VLN)タスクと対話履歴からのナビゲーション(NDH)タスクをシームレスにトレーニングできるマルチタスクナビゲーションモデルを提案する。実験により、環境に依存しないマルチタスク学習は、目に見える環境と目に見えない環境の間のパフォーマンスギャップを著しく減少させることが示された。
論文参考訳（メタデータ） (2020-03-01T09:06:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。