論文の概要: General-Purpose Robotic Navigation via LVLM-Orchestrated Perception, Reasoning, and Acting
- arxiv url: http://arxiv.org/abs/2506.17462v1
- Date: Fri, 20 Jun 2025 20:06:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.427035
- Title: General-Purpose Robotic Navigation via LVLM-Orchestrated Perception, Reasoning, and Acting
- Title(参考訳): LVLM-Orchestrated Perception, Reasoning, Acting による汎用ロボットナビゲーション
- Authors: Bernard Lange, Anil Yildiz, Mansur Arief, Shehryar Khattak, Mykel Kochenderfer, Georgios Georgakis,
- Abstract要約: Agentic Robotic Navigation Architecture (ARNA)は、LVLMベースのエージェントに知覚、推論、ナビゲーションツールのライブラリを装備する汎用ナビゲーションフレームワークである。
実行時に、エージェントは自律的にタスク固有のナビゲーションを定義し、実行し、ロボットモジュールを反復的にクエリし、マルチモーダル入力を推論し、適切なナビゲーションアクションを選択する。
ARNAは最先端のパフォーマンスを達成し、手作りの計画や固定された入力表現、既存の地図に頼ることなく、効果的な探索、ナビゲーション、具体化された質問応答を実証する。
- 参考スコア(独自算出の注目度): 9.157222032441531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing general-purpose navigation policies for unknown environments remains a core challenge in robotics. Most existing systems rely on task-specific neural networks and fixed data flows, limiting generalizability. Large Vision-Language Models (LVLMs) offer a promising alternative by embedding human-like knowledge suitable for reasoning and planning. Yet, prior LVLM-robot integrations typically depend on pre-mapped spaces, hard-coded representations, and myopic exploration. We introduce the Agentic Robotic Navigation Architecture (ARNA), a general-purpose navigation framework that equips an LVLM-based agent with a library of perception, reasoning, and navigation tools available within modern robotic stacks. At runtime, the agent autonomously defines and executes task-specific workflows that iteratively query the robotic modules, reason over multimodal inputs, and select appropriate navigation actions. This approach enables robust navigation and reasoning in previously unmapped environments, providing a new perspective on robotic stack design. Evaluated in Habitat Lab on the HM-EQA benchmark, ARNA achieves state-of-the-art performance, demonstrating effective exploration, navigation, and embodied question answering without relying on handcrafted plans, fixed input representations, or pre-existing maps.
- Abstract(参考訳): 未知の環境に対する汎用ナビゲーションポリシーの開発は、ロボティクスにおける中核的な課題である。
既存のシステムの多くはタスク固有のニューラルネットワークと固定データフローに依存しており、一般化性に制限がある。
LVLM(Large Vision-Language Models)は、推論と計画に適した人間のような知識を埋め込むことによって、有望な代替手段を提供する。
しかし、以前のLVLM-robot統合は通常、事前にマップされた空間、ハードコードされた表現、および筋電図探索に依存する。
本稿では,LVLMをベースとした汎用ナビゲーションフレームワークであるAgentic Robotic Navigation Architecture(ARNA)について紹介する。
実行時に、エージェントは自律的にタスク固有のワークフローを定義し、実行し、ロボットモジュールを反復的にクエリし、マルチモーダル入力を推論し、適切なナビゲーションアクションを選択する。
このアプローチは、以前にマップされていない環境で堅牢なナビゲーションと推論を可能にし、ロボットスタック設計に関する新たな視点を提供する。
HM-EQAベンチマークで評価されたHabitat Labでは、ARNAは最先端のパフォーマンスを達成し、手作りの計画、固定された入力表現、または既存のマップに頼ることなく、効果的な探索、ナビゲーション、具体化された質問応答を実証している。
関連論文リスト
- Cognitive Planning for Object Goal Navigation using Generative AI Models [0.979851640406258]
本稿では,効率的な探索戦略を生成するオブジェクトゴールナビゲーション問題を解決するための新しいフレームワークを提案する。
我々のアプローチは,Large Language Models (LLMs) とLarge Vision-Language Models (LVLMs) を活用することで,ロボットが慣れない環境をナビゲートすることを可能にする。
論文 参考訳(メタデータ) (2024-03-30T10:54:59Z) - Co-NavGPT: Multi-Robot Cooperative Visual Semantic Navigation Using Vision Language Models [8.668211481067457]
Co-NavGPTは、ビジョン言語モデル(VLM)をグローバルプランナーとして統合する新しいフレームワークである。
Co-NavGPTは、多様な視点を持つ複数のロボットのサブマップを統一されたグローバルマップに集約する。
VLMはこの情報を使って、ロボット全体のフロンティアを割り当て、協調的で効率的な探索を容易にする。
論文 参考訳(メタデータ) (2023-10-11T23:17:43Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - GNM: A General Navigation Model to Drive Any Robot [67.40225397212717]
視覚に基づくナビゲーションのための一般的な目標条件付きモデルは、多くの異なるが構造的に類似したロボットから得られたデータに基づいて訓練することができる。
ロボット間の効率的なデータ共有に必要な設計決定について分析する。
我々は、訓練されたGNMを、下四極子を含む様々な新しいロボットに展開する。
論文 参考訳(メタデータ) (2022-10-07T07:26:41Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。