論文の概要: OctoNav: Towards Generalist Embodied Navigation
- arxiv url: http://arxiv.org/abs/2506.09839v1
- Date: Wed, 11 Jun 2025 15:15:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.086779
- Title: OctoNav: Towards Generalist Embodied Navigation
- Title(参考訳): OctoNav:ジェネラル・エボダイド・ナビゲーションを目指して
- Authors: Chen Gao, Liankai Jin, Xingyu Peng, Jiazhao Zhang, Yue Deng, Annan Li, He Wang, Si Liu,
- Abstract要約: エンボディードナビゲーションは、エンボディードAIの幅広い追求の基盤の柱である。
本研究では,自由形指示に従う汎用ナビゲーションエージェントを提案する。
我々は,OctoNav-BenchとOctoNav-R1と呼ばれる大規模ベンチマークとそれに対応する手法を提案する。
- 参考スコア(独自算出の注目度): 36.062963913289316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied navigation stands as a foundation pillar within the broader pursuit of embodied AI. However, previous navigation research is divided into different tasks/capabilities, e.g., ObjNav, ImgNav and VLN, where they differ in task objectives and modalities, making datasets and methods are designed individually. In this work, we take steps toward generalist navigation agents, which can follow free-form instructions that include arbitrary compounds of multi-modal and multi-capability. To achieve this, we propose a large-scale benchmark and corresponding method, termed OctoNav-Bench and OctoNav-R1. Specifically, OctoNav-Bench features continuous environments and is constructed via a designed annotation pipeline. We thoroughly craft instruction-trajectory pairs, where instructions are diverse in free-form with arbitrary modality and capability. Also, we construct a Think-Before-Action (TBA-CoT) dataset within OctoNav-Bench to provide the thinking process behind actions. For OctoNav-R1, we build it upon MLLMs and adapt it to a VLA-type model, which can produce low-level actions solely based on 2D visual observations. Moreover, we design a Hybrid Training Paradigm (HTP) that consists of three stages, i.e., Action-/TBA-SFT, Nav-GPRO, and Online RL stages. Each stage contains specifically designed learning policies and rewards. Importantly, for TBA-SFT and Nav-GRPO designs, we are inspired by the OpenAI-o1 and DeepSeek-R1, which show impressive reasoning ability via thinking-before-answer. Thus, we aim to investigate how to achieve thinking-before-action in the embodied navigation field, to improve model's reasoning ability toward generalists. Specifically, we propose TBA-SFT to utilize the TBA-CoT dataset to fine-tune the model as a cold-start phrase and then leverage Nav-GPRO to improve its thinking ability. Finally, OctoNav-R1 shows superior performance compared with previous methods.
- Abstract(参考訳): エンボディードナビゲーションは、エンボディードAIの幅広い追求の基盤の柱である。
しかし、従来のナビゲーション研究は、タスク/機能、例えばObjNav、ImgNav、VLNに分けられており、タスクの目的とモダリティが異なるため、データセットとメソッドは個別に設計されている。
本研究では,多モード・多機能な任意の化合物を含む自由形式の指示に従う一般ナビゲーションエージェントを提案する。
そこで我々は,OctoNav-BenchとOctoNav-R1と呼ばれる大規模ベンチマークとそれに対応する手法を提案する。
具体的には、OctoNav-Benchは継続的環境を特徴とし、設計済みのアノテーションパイプラインで構築されている。
我々は命令と軌道のペアを徹底的に作り、命令は任意のモダリティと能力を持つ自由形式で多様である。
また、OctoNav-Bench内にThink-Before-Action(TBA-CoT)データセットを構築し、アクションの背後にある思考プロセスを提供する。
OctoNav-R1では、MLLM上に構築し、VLA型モデルに適応する。
さらに,Action-/TBA-SFT,Nav-GPRO,オンラインRLの3段階からなるHTP(Hybrid Training Paradigm)を設計する。
各ステージには、特別に設計された学習ポリシーと報酬が含まれている。
重要なのは、TBA-SFTとNav-GRPOの設計において、私たちはOpenAI-o1とDeepSeek-R1にインスパイアされたことです。
そこで本研究では,一般論者に対するモデル推論能力の向上を目的として,具体的ナビゲーション分野における思考前行動の実現方法について検討する。
具体的には、TBA-SFTを用いて、TBA-CoTデータセットを用いて、モデルをコールドスタートフレーズとして微調整し、Nav-GPROを活用して思考能力を向上させる。
最後に、OctoNav-R1は以前の方法よりも優れたパフォーマンスを示している。
関連論文リスト
- EvolveNav: Self-Improving Embodied Reasoning for LLM-Based Vision-Language Navigation [111.0993686148283]
本稿では,EvolveNavと呼ばれるビジョンランゲージナビゲーションを向上するための,新たなSElf-imbodied embodied reasoningフレームワークを提案する。
EvolveNav は,(1) 形式化された CoT ラベルを用いたモデルトレーニング,(2) 自己表現的ポストトライニング,(2) モデルが自己強化 CoT ラベルとして独自の推論出力で反復的にトレーニングされ,監督の多様性を高めるための,形式化された CoT ラベルによるモデルトレーニング,の2つの段階で構成されている。
論文 参考訳(メタデータ) (2025-06-02T11:28:32Z) - Navigation World Models [68.58459393846461]
本稿では,過去の観測とナビゲーション行動に基づいて,将来の視覚観測を予測できる制御可能な映像生成モデルを提案する。
慣れ親しんだ環境では、NWMはナビゲーションの軌道をシミュレートし、目的を達成するかどうかを評価することで計画することができる。
実験は、スクラッチからの軌道計画や、外部ポリシーからサンプリングされた軌道のランク付けにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2024-12-04T18:59:45Z) - InstructNav: Zero-shot System for Generic Instruction Navigation in Unexplored Environment [5.43847693345519]
本研究では,汎用的な命令ナビゲーションシステムであるInstructNavを提案する。
InstructNavは、ナビゲーショントレーニングやビルド済みのマップを使わずに、さまざまな命令ナビゲーションタスクを最初に処理する。
InstructNavでは、R2R-CEタスクを初めてゼロショットで完了し、多くのタスク学習方法より優れています。
論文 参考訳(メタデータ) (2024-06-07T12:26:34Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large
Language Models [17.495162643127003]
我々は,複雑なエンボディシーンにおけるGPTモデルの推論能力を明らかにするために,NavGPTを導入した。
NavGPTは、視覚的な観察、ナビゲーション履歴、将来の探索可能な方向のテキスト記述を入力として、エージェントの現在の状態を推論する。
本研究では,NavGPTが経路に沿った観察や行動から高品質なナビゲーション命令を生成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-26T14:41:06Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。