論文の概要: TADPO: Reinforcement Learning Goes Off-road
- arxiv url: http://arxiv.org/abs/2603.05995v1
- Date: Fri, 06 Mar 2026 07:55:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.29204
- Title: TADPO: Reinforcement Learning Goes Off-road
- Title(参考訳): TADPO:強化学習がオフロードへ
- Authors: Zhouchonghao Wu, Raymond Song, Vedant Mundheda, Luis E. Navarro-Serment, Christof Schoenborn, Jeff Schneider,
- Abstract要約: 高速オフロード運転のための視覚ベースでエンドツーエンドのRLシステムを開発し、極端斜面や障害物の多い地形を走行する。
私たちの知る限り、この作業は、RLベースのポリシをフルスケールのオフロードプラットフォームにデプロイした最初の例です。
- 参考スコア(独自算出の注目度): 3.6550297724888328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-road autonomous driving poses significant challenges such as navigating unmapped, variable terrain with uncertain and diverse dynamics. Addressing these challenges requires effective long-horizon planning and adaptable control. Reinforcement Learning (RL) offers a promising solution by learning control policies directly from interaction. However, because off-road driving is a long-horizon task with low-signal rewards, standard RL methods are challenging to apply in this setting. We introduce TADPO, a novel policy gradient formulation that extends Proximal Policy Optimization (PPO), leveraging off-policy trajectories for teacher guidance and on-policy trajectories for student exploration. Building on this, we develop a vision-based, end-to-end RL system for high-speed off-road driving, capable of navigating extreme slopes and obstacle-rich terrain. We demonstrate our performance in simulation and, importantly, zero-shot sim-to-real transfer on a full-scale off-road vehicle. To our knowledge, this work represents the first deployment of RL-based policies on a full-scale off-road platform.
- Abstract(参考訳): オフロード自動運転は、未マップ、不確実かつ多様なダイナミックスを持つ可変地形をナビゲートするなど、重大な課題を生んでいる。
これらの課題に対処するには、効果的な長期計画と適応可能な制御が必要である。
強化学習(RL)は、インタラクションから直接制御ポリシーを学習することで、有望なソリューションを提供する。
しかし、オフロード運転は低信号の報奨を伴う長距離作業であるため、この設定では標準RL法の適用が困難である。
そこで我々は, PPO(Proximal Policy Optimization)を拡張した新しい政策勾配定式化であるTADPOを導入し, 教師の指導にオフ・ポリティクス, 学生の探究にオン・ポリティクス・トラジェクトリーを活用する。
そこで我々は, 高速オフロード運転のための視覚ベースでエンドツーエンドのRLシステムを構築し, 極端な斜面や障害物の多い地形を探索する。
我々はシミュレーションで性能を実証し、さらに、フルスケールオフロード車両におけるゼロショット・シミュレート・トゥ・リアルトランスファーについて述べる。
私たちの知る限り、この作業は、RLベースのポリシをフルスケールのオフロードプラットフォームにデプロイした最初の例です。
関連論文リスト
- CarPlanner: Consistent Auto-regressive Trajectory Planning for Large-scale Reinforcement Learning in Autonomous Driving [23.7034061448326]
軌道計画は自動運転に不可欠であり、複雑な環境で安全かつ効率的な航法を確保する。
本稿では、強化学習を用いてマルチモーダル軌道を生成するtextbfConsistent textbfauto-textbfregressive textbfPlannerについて紹介する。
論文 参考訳(メタデータ) (2025-02-27T09:26:22Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - OTTR: Off-Road Trajectory Tracking using Reinforcement Learning [6.033086397437647]
オフロード軌道追跡問題に対する新しい強化学習(RL)アルゴリズムを提案する。
提案手法は,ベースラインRLポリシーに適応するために利用可能な限られた実世界のデータを効率的に活用する。
標準のILQR手法と比較して,提案手法はWarthogとMooseのクロストラック誤差を30%,50%削減する。
論文 参考訳(メタデータ) (2021-10-05T20:04:37Z) - Decision-making for Autonomous Vehicles on Highway: Deep Reinforcement
Learning with Continuous Action Horizon [14.059728921828938]
本稿では,高速道路における連続水平決定問題に対処するために,深部強化学習(DRL)手法を用いる。
エゴ自動車両の走行目標は、衝突することなく効率的でスムーズなポリシーを実行することである。
PPO-DRLに基づく意思決定戦略は、最適性、学習効率、適応性など、複数の観点から推定される。
論文 参考訳(メタデータ) (2020-08-26T22:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。