論文の概要: NavOL: Navigation Policy with Online Imitation Learning
- arxiv url: http://arxiv.org/abs/2605.11762v1
- Date: Tue, 12 May 2026 08:33:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.717889
- Title: NavOL: Navigation Policy with Online Imitation Learning
- Title(参考訳): NavOL:オンライン模倣学習によるナビゲーションポリシー
- Authors: Xiaofei Wei, Chun Gu, Li Zhang,
- Abstract要約: NavOLはオンラインの模倣学習パラダイムで、シミュレータと対話し、専門家によるデモをオンラインで行う。
NavOLはロールアウト更新ループでトレーニングする:ロールアウトの間、ポリシーはシミュレータで動作し、グローバル環境へのアクセスを特権とするグローバルプランナーに問い合わせる。
このオンライン模倣ループは、報酬設計の必要性を排除し、学習効率を向上し、ポリシー独自のロールアウトのトレーニングによる分散シフトを緩和する。
- 参考スコア(独自算出の注目度): 10.836499380430254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning robust navigation policies remains a core challenge in robotics. Offline imitation learning suffers from distribution shift and compounding errors at rollout, while reinforcement learning requires reward engineering and learns inefficiently. In this paper, we propose NavOL, an online imitation learning paradigm that interacts with a simulator and updates itself using expert demonstrations gathered online. Built upon a pretrained navigation diffusion policy that maps local observations to future waypoints, NavOL trains in a rollout update loop: during rollout, the policy acts in the simulator and queries a global planner which has privileged access to the global environment for the optimal path segment as ground truth trajectory labels; during update, the policy is trained on the online collected observation trajectory pairs. This online imitation loop removes the need for reward design, improves learning efficiency, and mitigates distribution shift by training on the policy own explored rollouts. Built on IsaacLab with fast, high-fidelity parallel rendering and domain randomization of camera pose and start-goal pairs, our system scales across 50 scenes on 8 RTX 4090 GPUs, collecting over 2,000 new trajectories per hour, each averaging more than 400 steps. We also introduce an indoor visual navigation benchmark with predefined start and goal positions for zero-shot generalization. Extensive evaluations on simulation benchmarks, including the NavDP benchmark and our proposed benchmark, as well as carefully designed real-world experiments, demonstrate the effectiveness of NavOL, showing consistent performance gains in online imitation learning.
- Abstract(参考訳): 堅牢なナビゲーションポリシーを学ぶことは、ロボティクスにおける中核的な課題である。
オフライン模倣学習は流通シフトやロールアウト時の複合エラーに悩まされ、強化学習は報酬工学を必要とし、非効率に学習する。
本稿では,シミュレータと対話するオンライン模倣学習パラダイムであるNavOLを提案する。
NavOLは、地域観測を将来の経路ポイントにマッピングする事前訓練されたナビゲーション拡散ポリシーに基づいて、ロールアウト更新ループでトレーニングする:ロールアウトの間、このポリシーはシミュレータで動作し、地上の真実の軌跡ラベルとして最適な経路セグメントのグローバル環境へのアクセスを特権的に許可するグローバルプランナーにクエリする。
このオンライン模倣ループは、報酬設計の必要性を排除し、学習効率を向上し、ポリシー独自のロールアウトのトレーニングによる分散シフトを緩和する。
カメラポーズとスタートゴールペアの高速かつ高忠実な並列レンダリングとドメインランダム化を備えたIsaacLab上に構築された私たちのシステムは、RTX 4090 GPUの50のシーンをスケールし、1時間に2,000以上の新しいトラジェクトリを集め、それぞれ平均400ステップ以上を集めています。
また、ゼロショット一般化のための開始位置とゴール位置を予め定義した屋内視覚ナビゲーションベンチマークを導入する。
NavDPベンチマークや提案したベンチマークなど,シミュレーションベンチマークの大規模評価や実世界の実験を慎重に設計し,NavOLの有効性を実証し,オンライン模倣学習における一貫した性能向上を示した。
関連論文リスト
- Hierarchical Reinforcement Learning for Safe Mapless Navigation with Congestion Estimation [7.339743259039457]
本稿では,階層的強化学習(HRL)を利用した安全な地図レスナビゲーションフレームワークを提案する。
その結果,HRLに基づくナビゲーションフレームワークは静的シナリオと動的シナリオの両方で優れていることがわかった。
本研究では,物理的な検証実験を行うために,TurtleBot3ロボット上にHRLベースのナビゲーションフレームワークを実装した。
論文 参考訳(メタデータ) (2025-03-15T08:03:50Z) - PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。
PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。
我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T19:30:08Z) - Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks [93.38375271826202]
本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。
まず,擬似飛行力学とガウススプラッティングを統合してシミュレータを構築し,その後,液状ニューラルネットワークを用いてロバストなナビゲーションポリシーを訓練する。
このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリング、専門家による実演訓練データのプログラミング、およびLiquid Networkのタスク理解能力の進歩を組み合わせたフルスタックの模倣学習プロトコルを得る。
論文 参考訳(メタデータ) (2024-06-21T13:48:37Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Avoidance Navigation Based on Offline Pre-Training Reinforcement
Learning [0.0]
本稿では,移動ロボットの地図を使わずに回避ナビゲーションを行うための,事前学習型深部強化学習(DRL)を提案する。
早期の非効率なランダム探索を高速化するために,効率的なオフライン学習戦略を提案する。
DRLモデルは, 異なる環境下で普遍的な汎用能力を有することを示した。
論文 参考訳(メタデータ) (2023-08-03T06:19:46Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。