論文の概要: CoIRL-AD: Collaborative-Competitive Imitation-Reinforcement Learning in Latent World Models for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2510.12560v1
- Date: Tue, 14 Oct 2025 14:21:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.349061
- Title: CoIRL-AD: Collaborative-Competitive Imitation-Reinforcement Learning in Latent World Models for Autonomous Driving
- Title(参考訳): CoIRL-AD: 自律運転のための潜在世界モデルにおける協調競争型模倣強化学習
- Authors: Xiaoji Zheng, Ziyuan Yang, Yanhao Chen, Yuhang Peng, Yuanrong Tang, Gengyuan Liu, Bokui Chen, Jiangtao Gong,
- Abstract要約: CoIRL-ADは、競合を防止しながら知識交換を促進する競合ベースのメカニズムを導入している。
nuScenesデータセットの実験では、ベースラインへの衝突速度が18%減少し、より強力な一般化とロングテールシナリオのパフォーマンスが向上した。
- 参考スコア(独自算出の注目度): 8.578450183245037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end autonomous driving models trained solely with imitation learning (IL) often suffer from poor generalization. In contrast, reinforcement learning (RL) promotes exploration through reward maximization but faces challenges such as sample inefficiency and unstable convergence. A natural solution is to combine IL and RL. Moving beyond the conventional two-stage paradigm (IL pretraining followed by RL fine-tuning), we propose CoIRL-AD, a competitive dual-policy framework that enables IL and RL agents to interact during training. CoIRL-AD introduces a competition-based mechanism that facilitates knowledge exchange while preventing gradient conflicts. Experiments on the nuScenes dataset show an 18% reduction in collision rate compared to baselines, along with stronger generalization and improved performance on long-tail scenarios. Code is available at: https://github.com/SEU-zxj/CoIRL-AD.
- Abstract(参考訳): 模倣学習(IL)のみを訓練したエンドツーエンドの自律運転モデルは、しばしば一般化の貧弱さに悩まされる。
対照的に、強化学習(RL)は報酬の最大化による探索を促進するが、サンプルの非効率性や不安定な収束といった課題に直面している。
自然な解決策は、ILとRLを組み合わせることである。
従来の2段階のパラダイム(ILプリトレーニング,RLファインチューニング)を超えて,ILエージェントとRLエージェントがトレーニング中に対話できる競合型デュアル政治フレームワークであるCoIRL-ADを提案する。
CoIRL-ADは、グラデーションコンフリクトを防止しつつ知識交換を容易にする競合ベースのメカニズムを導入している。
nuScenesデータセットの実験では、ベースラインに比べて衝突速度が18%減少し、より強力な一般化とロングテールシナリオのパフォーマンスが向上した。
コードは、https://github.com/SEU-zxj/CoIRL-ADで入手できる。
関連論文リスト
- On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting [91.38734024438357]
Supervised Fine-Tuning (SFT) と Reinforcement Learning (RL) は、大規模言語モデル(LLM)の能力の強化と振る舞いの整合化のための訓練後パラダイムである。
SFTとRLを統合する既存のアプローチは、確立された応答パターンを乱し、専門家データに過度に適合するリスクに直面することが多い。
動的重み付けによるオン・アンド・オフ・ポリティクス強化学習の制御可能な調和のためのフレームワークであるCHORDを提案する。
論文 参考訳(メタデータ) (2025-08-15T11:20:03Z) - Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。
私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。
本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文 参考訳(メタデータ) (2025-06-10T12:40:39Z) - Vintix: Action Model via In-Context Reinforcement Learning [78.11130335098936]
In-context reinforcement learning を通じて振る舞いを学習できる固定されたクロスドメインモデルを導入することで ICRL のスケールアップに向けた第一歩を提示する。
ICRLを促進するために設計されたフレームワークであるアルゴリズム蒸留は、多目的な作用モデルを構築するために、専門家蒸留に代わる魅力的な、競争力のある代替手段を提供することを示した。
論文 参考訳(メタデータ) (2025-01-31T18:57:08Z) - Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning [93.99377042564919]
本稿では,潜在的利点の探索を妨げることなく,より柔軟な値推定制約を構築することを試みる。
鍵となるアイデアは、オフラインポリシの"テストベッド"として、オンライン形式で簡単に操作可能な、市販のRLシミュレータを活用することだ。
我々は、状態と報酬空間におけるドメイン間の差異を軽減するモデルベースのRLアプローチであるCoWorldを紹介する。
論文 参考訳(メタデータ) (2023-05-24T15:45:35Z) - Demonstration-free Autonomous Reinforcement Learning via Implicit and
Bidirectional Curriculum [22.32327908453603]
Indicit and Bi-directional Curriculum (IBC) を用いた実証自由強化学習アルゴリズムを提案する。
学習の進捗に応じて条件付きで活性化される補助エージェントと、最適輸送に基づく双方向ゴールカリキュラムにより、本手法は従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-05-17T04:31:36Z) - Vision-Based Autonomous Car Racing Using Deep Imitative Reinforcement
Learning [13.699336307578488]
深層模倣強化学習(DIRL)は、視覚入力を使用してアジャイルな自律レースを実現する。
我々は,高忠実性運転シミュレーションと実世界の1/20スケールRC-car上での車載計算の制限により,本アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-18T00:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。