論文の概要: Nav-R1: Reasoning and Navigation in Embodied Scenes
- arxiv url: http://arxiv.org/abs/2509.10884v1
- Date: Sat, 13 Sep 2025 16:31:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.830741
- Title: Nav-R1: Reasoning and Navigation in Embodied Scenes
- Title(参考訳): Nav-R1: 身体的シーンにおける推論とナビゲーション
- Authors: Qingxiang Liu, Ting Huang, Zeyu Zhang, Hao Tang,
- Abstract要約: Emナビゲーションでは、エージェントが知覚、推論、行動を統合する必要がある。
既存のアプローチは、しばしば一貫性のない不安定な推論トレースに悩まされる。
実施環境における推論を統一する基礎モデルであるNav-R1を提案する。
- 参考スコア(独自算出の注目度): 16.10022718760368
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Embodied navigation requires agents to integrate perception, reasoning, and action for robust interaction in complex 3D environments. Existing approaches often suffer from incoherent and unstable reasoning traces that hinder generalization across diverse environments, and difficulty balancing long-horizon semantic reasoning with low-latency control for real-time navigation. To address these challenges, we propose Nav-R1, an embodied foundation model that unifies reasoning in embodied environments. We first construct Nav-CoT-110K, a large-scale dataset of step-by-step Chains-of-Thought (CoT) for embodied tasks, which enables cold-start initialization with structured reasoning. Building on this foundation, we design a GRPO-based reinforcement learning framework with three complementary rewards: format, understanding, and navigation, to improve structural adherence, semantic grounding, and path fidelity. Furthermore, we introduce a Fast-in-Slow reasoning paradigm, decoupling deliberate semantic reasoning from low-latency reactive control for efficient yet coherent navigation. Extensive evaluations on embodied AI benchmarks demonstrate that Nav-R1 consistently outperforms strong baselines, with over 8% average improvement in reasoning and navigation performance. Real-world deployment on a mobile robot further validates its robustness under limited onboard resources. Code: https://github.com/AIGeeksGroup/Nav-R1. Website: https://aigeeksgroup.github.io/Nav-R1.
- Abstract(参考訳): 身体的ナビゲーションは、複雑な3D環境における堅牢な相互作用のための知覚、推論、行動を統合するためにエージェントを必要とする。
既存のアプローチは、様々な環境における一般化を妨げる不整合かつ不安定な推論トレースに悩まされ、リアルタイムナビゲーションのための低遅延制御による長期的意味推論のバランスの困難さに悩まされる。
これらの課題に対処するため,具体化環境における推論を統一する基盤モデルであるNav-R1を提案する。
まず, 階層型推論による冷間開始初期化を実現するため, ステップ・バイ・ステップ・チェーン・オブ・ソート(CoT)の大規模データセットであるNav-CoT-110Kを構築した。
この基盤の上に構築されたGRPOに基づく強化学習フレームワークは,形式,理解,ナビゲーションの3つの相補的な報酬を伴い,構造的定着,セマンティックグラウンド,パス忠実性を改善する。
さらに、高速かつ一貫性のあるナビゲーションのために、低レイテンシのリアクティブ制御から意図的なセマンティック推論を分離するFast-in-Slow推論パラダイムを導入する。
具体的AIベンチマークに関する大規模な評価は、Nav-R1が強いベースラインを一貫して上回り、推論とナビゲーションのパフォーマンスが平均8%以上向上していることを示している。
実世界の移動ロボットへの展開は、限られたオンボードリソース下での堅牢性をさらに検証する。
コード:https://github.com/AIGeeksGroup/Nav-R1。
ウェブサイト:https://aigeeksgroup.github.io/Nav-R1.com
関連論文リスト
- RSRNav: Reasoning Spatial Relationship for Image-Goal Navigation [57.197881161006904]
近年のイメージゴールナビゲーション(ImageNav)手法は,目標と自我中心の画像の意味的特徴を別々に捉え,知覚行動ポリシーを学習している。
本稿では,目標と現在の観測値の空間的関係をナビゲーションガイダンスとして考慮する,シンプルで効果的な手法であるRSRNavを提案する。
論文 参考訳(メタデータ) (2025-04-25T00:22:17Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。