論文の概要: HiRO-Nav: Hybrid ReasOning Enables Efficient Embodied Navigation
- arxiv url: http://arxiv.org/abs/2604.08232v1
- Date: Thu, 09 Apr 2026 13:22:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.936863
- Title: HiRO-Nav: Hybrid ReasOning Enables Efficient Embodied Navigation
- Title(参考訳): HiRO-Nav: 効率的なボディナビゲーションを実現するハイブリッドリズオン
- Authors: He Zhao, Yijun Yang, Zichuan Lin, Deheng Ye, Chunyan Miao,
- Abstract要約: HiRO-Navは、自身のアクションエントロピーに基づいて、各ステップで思考を行うかどうかを適応的に決定できる最初の種類のエージェントである。
そこで本研究では,ハイブリッド型微調整をコールドスタートとし,その後にオンライン強化学習を施した調整訓練パイプラインを提案する。
textscCHORES-$mathbbS$ObjectNavベンチマークの実験では、HiRO-Navは、密集した考え方と非考えのベースラインの両方よりも成功率とトークン効率のトレードオフが優れていることが示されている。
- 参考スコア(独自算出の注目度): 58.29060712443587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied navigation agents built upon large reasoning models (LRMs) can handle complex, multimodal environmental input and perform grounded reasoning per step to improve sequential decision-making for long-horizon tasks. However, a critical question remains: \textit{how can the reasoning capabilities of LRMs be harnessed intelligently and efficiently for long-horizon navigation tasks?} In simple scenes, agents are expected to act reflexively, while in complex ones they should engage in deliberate reasoning before acting.To achieve this, we introduce \textbf{H}ybr\textbf{i}d \textbf{R}eas\textbf{O}ning \textbf{Nav}igation (\textbf{HiRO-Nav}) agent, the first kind of agent capable of adaptively determining whether to perform thinking at every step based on its own action entropy. Specifically, by examining how the agent's action entropy evolves over the navigation trajectories, we observed that only a small fraction of actions exhibit high entropy, and these actions often steer the agent toward novel scenes or critical objects. Furthermore, studying the relationship between action entropy and task completion (i.e., Q-value) reveals that improving high-entropy actions contributes more positively to task success.Hence, we propose a tailored training pipeline comprising hybrid supervised fine-tuning as a cold start, followed by online reinforcement learning with the proposed hybrid reasoning strategy to explicitly activate reasoning only for high-entropy actions, significantly reducing computational overhead while improving decision quality. Extensive experiments on the \textsc{CHORES}-$\mathbb{S}$ ObjectNav benchmark showcases that HiRO-Nav achieves a better trade-off between success rates and token efficiency than both dense-thinking and no-thinking baselines.
- Abstract(参考訳): 大きな推論モデル(LRM)上に構築された身体的ナビゲーションエージェントは、複雑でマルチモーダルな環境入力を処理し、ステップ毎にグラウンドド推論を行い、長い水平タスクのシーケンシャルな意思決定を改善する。
しかし、重要な疑問が残る: \textit{how can the reasoning capabilities of LRMs can be utilizeed in Intelly and efficient for long-horizon navigation tasks?
単純な場面では、エージェントは反射的に行動することが期待され、複雑な場面では行動の前に意図的な推論を行うべきである。これを達成するために、我々は、自身のアクションエントロピーに基づいてすべてのステップで思考を行うかどうかを適応的に決定できる最初のエージェントである、 \textbf{H}ybr\textbf{i}d \textbf{R}eas\textbf{O}ning \textbf{Nav}igation (\textbf{HiRO-Nav})エージェントを紹介する。
具体的には、エージェントの行動エントロピーが航法軌道上でどのように進化するかを調べることで、少数のアクションだけが高いエントロピーを示しており、これらのアクションは、しばしば新しいシーンや重要な対象に向けてエージェントを操る。
さらに、行動エントロピーとタスク完了(Q値)の関係を研究した結果、高エントロピー行動の改善がタスク成功に寄与することが明らかとなり、その後、ハイブリッド教師付き微調整を冷間開始とする調整訓練パイプラインを提案し、それに続いて、高エントロピー行動のみの推論を積極的に活性化し、意思決定品質を向上しながら、オーバーヘッドを著しく低減するハイブリッド推論戦略を用いたオンライン強化学習を行った。
textsc{CHORES}-$\mathbb{S}$ ObjectNavベンチマークの大規模な実験は、HiRO-Navが高密度思考と非思考ベースラインの両方よりも成功率とトークン効率のトレードオフを良く達成していることを示している。
関連論文リスト
- Anticipatory Planning for Multimodal AI Agents [77.62643381558613]
予測推論を明示的に訓練する2段階強化学習フレームワークであるTraceR1を紹介する。
TraceR1は、オンラインコンピュータ使用、オフラインコンピュータ使用ベンチマーク、マルチモーダルツール使用推論タスクを含む、7つのベンチマークで評価されている。
以上の結果から,予測軌道推論は,複雑な実環境において効果的に推論,計画,行動が可能なマルチモーダルエージェント構築の鍵となる原理であることが示唆された。
論文 参考訳(メタデータ) (2026-03-17T16:55:11Z) - RAGNav: A Retrieval-Augmented Topological Reasoning Framework for Multi-Goal Visual-Language Navigation [1.7508558850131373]
Vision-Language Navigation (VLN) は、シングルポイントパスフィンディングからより挑戦的なMulti-Goal VLNへと進化している。
RAGNavは意味論的推論と物理的構造の間のギャップを埋めるフレームワークである。
論文 参考訳(メタデータ) (2026-03-04T05:31:33Z) - AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts [78.33143446024485]
我々は、横方向思考パズルに基づく環境ロールアウトによるエージェントの評価を行うtextbfAgentLongBenchを紹介した。
このフレームワークは、知識集約的で知識のないシナリオにまたがる厳密な相互作用の軌跡を生成する。
論文 参考訳(メタデータ) (2026-01-28T16:05:44Z) - Spark: Strategic Policy-Aware Exploration via Dynamic Branching for Long-Horizon Agentic Learning [31.17280303212164]
textbfStrategic textbfPolicy-textbfAware explotextbfRation via textbfKey-state dynamic branching)を提案する。
我々の重要な洞察は、有望な軌道を探索するために重要な決定点において適応的な分岐探索を活性化することである。
textscSparkはトレーニングサンプルをはるかに少なくして優れた成功率を実現し、目に見えないシナリオでも堅牢な一般化を示す。
論文 参考訳(メタデータ) (2026-01-28T03:15:34Z) - CoINS: Counterfactual Interactive Navigation via Skill-Aware VLM [13.352875026471445]
スキル認識型VLM(CoINS)による対物対話ナビゲーションを提案する。
我々は、スキルの余裕と具体的な制約パラメータを入力コンテキストに組み込んだ、InterNav-VLMというVLMを微調整する。
生成した高レベルプランを実行するために,強化学習による総合的なスキルライブラリを開発する。
論文 参考訳(メタデータ) (2026-01-07T14:10:46Z) - ARES: Multimodal Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping [54.37497695483689]
本稿では,タスクの難易度に基づいて探索作業を動的に割り当てる適応推論のための統合フレームワークであるARESを提案する。
単一トークンエントロピーはノイズが多いが,高いウィンドウエントロピー(HWE)トークンは推論クリティカルな瞬間を確実に捉えることができる。
In the Adaptive Cold-Start stage, we curate multimodal and textual data paired with reasoning traces of length proportional to problem difficulty。
第2段階では,HWEトークンを探索トリガとする適応エントロピーポリシー最適化(AEPO)を開発する。
論文 参考訳(メタデータ) (2025-10-09T17:03:28Z) - Risk-Bounded Multi-Agent Visual Navigation via Dynamic Budget Allocation [3.7347677698423536]
従来の計画手法は、長距離タスクを解くのに優れているが、事前に定義された距離メトリクスに依存している。
本稿では,ユーザの特定リスク境界を動的に割り当て,調整する RB-CBS を提案する。
改善したプランナーにより、各エージェントは、全体的な安全制約を尊重しつつ、より効率的なナビゲーションを可能にする、局所的なリスク予算を得られることが保証される。
論文 参考訳(メタデータ) (2025-09-09T21:35:55Z) - Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。
特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。
さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-07T02:24:44Z) - A Multi-Agent Reinforcement Learning Approach for Cooperative Air-Ground-Human Crowdsensing in Emergency Rescue [22.201769922727077]
本稿では,ヒト,UAV,UGVを考慮し,不均一な協調作業割当問題に対処する。
我々は,UGVが低電池UAVのチャージを優先し,検知タスクを遂行する,新しい「ハード・コラボレーティブ」政策を導入する。
本稿では,分散実行アーキテクチャに基づく新しいマルチエージェント強化学習アルゴリズムであるHECTA4ERを提案する。
論文 参考訳(メタデータ) (2025-05-11T14:49:15Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。