論文の概要: Breaking Imitation Bottlenecks: Reinforced Diffusion Powers Diverse Trajectory Generation
- arxiv url: http://arxiv.org/abs/2507.04049v1
- Date: Sat, 05 Jul 2025 14:19:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.992114
- Title: Breaking Imitation Bottlenecks: Reinforced Diffusion Powers Diverse Trajectory Generation
- Title(参考訳): アブレーション・イミテーション・ボトルネック:強化拡散力の逆軌道生成
- Authors: Ziying Song, Lin Liu, Hongyu Pan, Bencheng Liao, Mingzhe Guo, Lei Yang, Yongchang Zhang, Shaoqing Xu, Caiyan Jia, Yadan Luo,
- Abstract要約: DIVERは、強化学習と拡散ベースの生成を統合するエンドツーエンドの自動運転フレームワークである。
また,DIVERは軌道の多様性を著しく改善し,模倣学習に固有のモード崩壊問題に効果的に対処することを示した。
- 参考スコア(独自算出の注目度): 20.106116218594266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most end-to-end autonomous driving methods rely on imitation learning from single expert demonstrations, often leading to conservative and homogeneous behaviors that limit generalization in complex real-world scenarios. In this work, we propose DIVER, an end-to-end driving framework that integrates reinforcement learning with diffusion-based generation to produce diverse and feasible trajectories. At the core of DIVER lies a reinforced diffusion-based generation mechanism. First, the model conditions on map elements and surrounding agents to generate multiple reference trajectories from a single ground-truth trajectory, alleviating the limitations of imitation learning that arise from relying solely on single expert demonstrations. Second, reinforcement learning is employed to guide the diffusion process, where reward-based supervision enforces safety and diversity constraints on the generated trajectories, thereby enhancing their practicality and generalization capability. Furthermore, to address the limitations of L2-based open-loop metrics in capturing trajectory diversity, we propose a novel Diversity metric to evaluate the diversity of multi-mode predictions.Extensive experiments on the closed-loop NAVSIM and Bench2Drive benchmarks, as well as the open-loop nuScenes dataset, demonstrate that DIVER significantly improves trajectory diversity, effectively addressing the mode collapse problem inherent in imitation learning.
- Abstract(参考訳): ほとんどのエンドツーエンドの自律運転法は、単一の専門家によるデモンストレーションから模倣学習を頼りにしており、しばしば複雑な実世界のシナリオにおける一般化を制限する保守的で均質な行動をもたらす。
本研究では,拡張学習と拡散生成を統合し,多種多様かつ実現可能な軌道を生成するエンドツーエンド駆動フレームワークであるDIVERを提案する。
DIVERの中核には、強化拡散ベースの生成機構がある。
第一に、地図要素とその周辺エージェントのモデル条件は、1つの地上軌道から複数の基準軌道を生成することであり、単一の専門家のデモンストレーションのみに依存することから生じる模倣学習の限界を緩和する。
第2に、報酬に基づく指導が生成した軌道の安全性と多様性の制約を強制し、それらの実用性と一般化能力を向上する拡散過程の導出に強化学習を用いる。
さらに,多モード予測の多様性を評価するために,L2ベースのオープンループ指標の限界に対処するため,閉ループNAVSIMとBench2Driveベンチマーク,およびオープンループnuScenesデータセットの大規模な実験により,DIVERが軌道の多様性を著しく改善し,模倣学習に固有のモード崩壊問題に効果的に対処できることが実証された。
関連論文リスト
- MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - BiTrajDiff: Bidirectional Trajectory Generation with Diffusion Models for Offline Reinforcement Learning [11.850736201059217]
BiTrajDiffは、オフライン強化学習(RL)のための新しいDAフレームワークである
軌道生成タスクを2つの独立かつ相補的な拡散過程に分解する。
BiTrajDiffは、重要状態をアンカーとして効果的に利用して、潜在的に価値ある未探索領域に拡張することができる。
論文 参考訳(メタデータ) (2025-06-06T05:41:33Z) - Continual Multimodal Contrastive Learning [70.60542106731813]
マルチモーダル・コントラッシブ・ラーニング(MCL)は、異なるモーダルを整列させ、関節空間で多モーダル表現を生成する。
マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。
本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。
理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文 参考訳(メタデータ) (2025-03-19T07:57:08Z) - Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning [93.58897637077001]
本稿では,オフラインからオンラインまでの潜水蒸留とフレキシブルなゆがみ制約を通したビデオから,セマンティックな違いを学習し,理解することを試みる。
動作自由なビデオ予測モデルを非干渉正規化によりオフラインでトレーニングし、注意をそらすビデオから意味的知識を抽出する。
オンライン環境での微調整には、事前学習されたモデルからの知識を活用し、世界モデルに絡み合った制約を導入する。
論文 参考訳(メタデータ) (2025-03-11T13:50:22Z) - Learning Soft Driving Constraints from Vectorized Scene Embeddings while Imitating Expert Trajectories [16.666811573117613]
運動計画の第一の目的は、車両の安全で効率的な軌道を生成することである。
伝統的に、運動計画モデルは、人間の専門家の行動を模倣するために模倣学習を用いて訓練される。
本研究では,制約学習を模倣学習に統合する手法を提案する。
論文 参考訳(メタデータ) (2024-12-07T18:29:28Z) - FlickerFusion: Intra-trajectory Domain Generalizing Multi-Agent RL [19.236153474365747]
既存のMARLアプローチは、トレーニングと推論の間に実体の数が一定であるという制限的な仮定に依存することが多い。
本稿では、ゼロショット・アウト・オブ・ドメイン(OOD)一般化の下での軌道内動的実体合成の課題に取り組む。
本稿では,MARLのバックボーン法に普遍的に適用可能な拡張手法として機能する新しいOOD一般化手法であるFlickerFusionを提案する。
論文 参考訳(メタデータ) (2024-10-21T10:57:45Z) - Diffusing States and Matching Scores: A New Framework for Imitation Learning [16.941612670582522]
敵対的模倣学習は伝統的に、学習者と敵対的に選択されたコスト関数の間の2つのプレイヤーゼロサムゲームとしてフレーム化されている。
拡散モデルは、回帰を通じてスコア関数を訓練することだけを必要とするGANの非敵対的な代替品として登場した。
提案手法は, GANスタイルの模倣学習ベースラインと差別化なし模倣学習ベースラインの両方を, 連続制御問題に比較して優れていることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:25Z) - Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning [80.44084021062105]
本稿では,非方向エッジで連結された2つの潜在結合変数を特徴とする,多モーダルデータに対する新しい潜在部分因果モデルを提案する。
特定の統計的仮定の下では、多モーダル・コントラッシブ・ラーニングによって学習された表現が、自明な変換までの潜在結合変数に対応することを示す。
事前トレーニングされたCLIPモデルの実験は、非絡み合った表現を具現化し、数ショットの学習を可能にし、さまざまな現実世界のデータセットにわたるドメインの一般化を改善する。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。
エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文 参考訳(メタデータ) (2020-07-26T08:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。