論文の概要: General-Purpose Robotic Navigation via LVLM-Orchestrated Perception, Reasoning, and Acting
- arxiv url: http://arxiv.org/abs/2506.17462v2
- Date: Fri, 17 Oct 2025 03:19:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 15:58:54.38395
- Title: General-Purpose Robotic Navigation via LVLM-Orchestrated Perception, Reasoning, and Acting
- Title(参考訳): LVLM-Orchestrated Perception, Reasoning, Acting による汎用ロボットナビゲーション
- Authors: Bernard Lange, Anil Yildiz, Mansur Arief, Shehryar Khattak, Mykel Kochenderfer, Georgios Georgakis,
- Abstract要約: Agentic Robotic Navigation Architecture (ARNA)は、LVLMベースのエージェントに知覚、推論、ナビゲーションツールのライブラリを装備する汎用フレームワークである。
実行時にエージェントは、現代のロボットスタックから引き出されたタスク固有のナビゲーションツールを自律的に定義し、実行します。
ARNAは最先端のEQA特異的アプローチより優れている。
- 参考スコア(独自算出の注目度): 5.291702442384798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing general-purpose navigation policies for unknown environments remains a core challenge in robotics. Most existing systems rely on task-specific neural networks and fixed information flows, limiting their generalizability. Large Vision-Language Models (LVLMs) offer a promising alternative by embedding human-like knowledge for reasoning and planning, but prior LVLM-robot integrations have largely depended on pre-mapped spaces, hard-coded representations, and rigid control logic. We introduce the Agentic Robotic Navigation Architecture (ARNA), a general-purpose framework that equips an LVLM-based agent with a library of perception, reasoning, and navigation tools drawn from modern robotic stacks. At runtime, the agent autonomously defines and executes task-specific workflows that iteratively query modules, reason over multimodal inputs, and select navigation actions. This agentic formulation enables robust navigation and reasoning in previously unmapped environments, offering a new perspective on robotic stack design. Evaluated in Habitat Lab on the HM-EQA benchmark, ARNA outperforms state-of-the-art EQA-specific approaches. Qualitative results on RxR and custom tasks further demonstrate its ability to generalize across a broad range of navigation challenges.
- Abstract(参考訳): 未知の環境に対する汎用ナビゲーションポリシーの開発は、ロボティクスにおける中核的な課題である。
既存のシステムの多くはタスク固有のニューラルネットワークと固定情報フローに依存しており、その一般化性は制限されている。
LVLM(Large Vision-Language Models)は、推論と計画のための人間のような知識を埋め込むことによって、有望な代替手段を提供するが、以前のLVLM-ロボット統合は、事前にマッピングされた空間、ハードコードされた表現、厳密な制御ロジックに大きく依存していた。
本稿では,LVLMをベースとしたエージェントに,現代のロボットスタックから引き出された知覚,推論,ナビゲーションツールのライブラリを組み込んだ汎用フレームワークであるAgentic Robotic Navigation Architecture(ARNA)を紹介する。
実行時にエージェントは、モジュールを反復的にクエリし、マルチモーダル入力を推論し、ナビゲーションアクションを選択するタスク固有のワークフローを自律的に定義し実行します。
このエージェントの定式化は、以前にマップされていない環境で堅牢なナビゲーションと推論を可能にし、ロボットスタック設計に関する新たな視点を提供する。
HM-EQAベンチマークでHabitat Labで評価され、ARNAは最先端のEQA固有のアプローチより優れている。
RxRとカスタムタスクの質的な結果はさらに、幅広いナビゲーション課題にまたがる一般化能力を示している。
関連論文リスト
- Deploying Foundation Model-Enabled Air and Ground Robots in the Field: Challenges and Opportunities [65.98704516122228]
基礎モデル(FM)をロボット工学に統合することで、ロボットは自然言語を理解し、環境のセマンティクスを推論できるようになった。
本稿では,FM対応ロボットを現場に展開する上で,大規模で非構造的な環境下でのロボットの運用に必要なミッションについて述べる。
数kmのミッションを持つ非構造環境下での大規模LLM対応ロボット計画の実証実験を行った。
論文 参考訳(メタデータ) (2025-05-14T15:28:43Z) - NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants [24.689242976554482]
慣れ親しんだ環境をナビゲートすることは、家庭用ロボットにとって大きな課題となる。
既存の強化学習手法は、直接新しい環境に移行することはできない。
我々は、事前学習された基礎モデルの論理知識と一般化能力をゼロショットナビゲーションに転送しようと試みる。
論文 参考訳(メタデータ) (2025-02-19T17:27:47Z) - Cognitive Planning for Object Goal Navigation using Generative AI Models [0.979851640406258]
本稿では,効率的な探索戦略を生成するオブジェクトゴールナビゲーション問題を解決するための新しいフレームワークを提案する。
我々のアプローチは,Large Language Models (LLMs) とLarge Vision-Language Models (LVLMs) を活用することで,ロボットが慣れない環境をナビゲートすることを可能にする。
論文 参考訳(メタデータ) (2024-03-30T10:54:59Z) - Co-NavGPT: Multi-Robot Cooperative Visual Semantic Navigation Using Vision Language Models [8.668211481067457]
Co-NavGPTは、ビジョン言語モデル(VLM)をグローバルプランナーとして統合する新しいフレームワークである。
Co-NavGPTは、多様な視点を持つ複数のロボットのサブマップを統一されたグローバルマップに集約する。
VLMはこの情報を使って、ロボット全体のフロンティアを割り当て、協調的で効率的な探索を容易にする。
論文 参考訳(メタデータ) (2023-10-11T23:17:43Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - GNM: A General Navigation Model to Drive Any Robot [67.40225397212717]
視覚に基づくナビゲーションのための一般的な目標条件付きモデルは、多くの異なるが構造的に類似したロボットから得られたデータに基づいて訓練することができる。
ロボット間の効率的なデータ共有に必要な設計決定について分析する。
我々は、訓練されたGNMを、下四極子を含む様々な新しいロボットに展開する。
論文 参考訳(メタデータ) (2022-10-07T07:26:41Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - Learning Synthetic to Real Transfer for Localization and Navigational
Tasks [7.019683407682642]
ナビゲーションは、コンピュータビジョン、ロボット工学、制御の概念を組み合わせて、複数の分野のクロスロードにある。
この研究は、実世界への移動をできる限り少ない努力で行うことができるナビゲーションパイプラインをシミュレーションで作成することを目的としていた。
ナビゲーションパイプラインを設計するには、環境、ローカライゼーション、ナビゲーション、計画の4つの大きな課題が発生する。
論文 参考訳(メタデータ) (2020-11-20T08:37:03Z) - APPLD: Adaptive Planner Parameter Learning from Demonstration [48.63930323392909]
本稿では,既存のナビゲーションシステムを新しい複雑な環境に適用可能な,適応プランナー学習(Adaptive Planner Learning from Demonstration)のAPPLDを紹介する。
APPLDは異なる環境で異なるナビゲーションシステムを実行する2つのロボットで検証されている。
実験結果から,APPLDはナビゲーションシステムよりも,デフォルトパラメータや専門家パラメータ,さらには人間実証者自体よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-03-31T21:15:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。