論文の概要: D$^3$-MoE:Dual Disentangled Diffusion Mixture-of-Experts for Style-Controllable End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2606.04884v1
- Date: Wed, 03 Jun 2026 13:46:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.792845
- Title: D$^3$-MoE:Dual Disentangled Diffusion Mixture-of-Experts for Style-Controllable End-to-End Autonomous Driving
- Title(参考訳): D$3$-MoE:Dual Disentangled Diffusion Mixture-of-Experts for Style-Controllable End-to-End autonomous Driving
- Authors: Renju Feng, Rukang Wang, Ning Xi, Jianguo Yu, Liping Lu, Pan Zhou, Duanfeng Chu,
- Abstract要約: D$3$-MoE は2つの相補軸に沿って軌道モデリングを歪める。
行動軸では、生成は選択から切り離される。
物理的軸では、分離された縦および横のルータがそれぞれの専門家を活性化する。
- 参考スコア(独自算出の注目度): 22.70855312181222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional end-to-end autonomous driving frameworks frequently suffer from the "style-averaging" dilemma when trained on high-variance human demonstrations, yielding homogenized, style-uncontrollable, and even kinematically unsafe policies. To overcome this limitation, we present D$^3$-MoE (Dual Disentangled Diffusion Mixture-of-Experts), which disentangles trajectory modeling along two complementary axes. On the behavioral axis, generation is decoupled from selection: a style-conditioned diffusion process synthesizes multi-style candidate trajectories in parallel within a single scene, allowing a downstream module to select the optimal trajectory based on user preference or an evaluation score. On the physical axis, decoupled longitudinal and lateral routers activate their respective experts during inference time, trained without manual labels using self-supervised targets from orthogonal ground-truth kinematics. These activated experts, architected as Diffusion Transformers (DiT) and equipped with style-conditioned AdaLN and asymmetric lateral-fusion cross-attention, independently predict their corresponding physical state before being reassembled into a unified, kinematically coherent trajectory. Extensive evaluations on the challenging NAVSIM benchmark demonstrate that D$^3$-MoE achieves state-of-the-art planning performance, reaching 88.2 PDMS and 84.3 EPDMS by default. Moreover, our Best-of-Three ensemble strategy effectively broadens the multi-modal solution space, raising performance to 91.3 PDMS and 87.5 EPDMS. Both quantitative and qualitative analyses jointly confirm the framework's advantages in planning quality and style controllability.
- Abstract(参考訳): 従来のエンドツーエンドの自律走行フレームワークは、高ばらつきの人間のデモンストレーションで訓練された場合、しばしば「スタイルを損なう」ジレンマに悩まされ、均質化され、スタイルをコントロールできない、さらにはキネマティックに安全でないポリシーをもたらす。
この制限を克服するために、D$^3$-MoE(Dual Disentangled Diffusion Mixture-of-Experts)を提案する。
スタイル条件付き拡散プロセスは、単一のシーン内で複数のスタイルの候補軌跡を並列に合成し、下流モジュールがユーザの好みや評価スコアに基づいて最適な軌跡を選択することを可能にする。
物理的軸上では, 直交基底運動学の自己教師対象を用いた手動ラベルを使わずに訓練し, 推定期間中に, 縦・横のルータがそれぞれの専門家を活性化させる。
これらの活性化された専門家はDiffusion Transformers (DiT) として設計され、スタイル条件付きAdaLNと非対称の左右方向の交叉アテンションを備えており、統合されたキネマティックなコヒーレントな軌道に再組み立てされる前に、独立して対応する物理的状態を予測する。
挑戦的なNAVSIMベンチマークの大規模な評価は、D$^3$-MoEが最先端の計画性能を達成し、デフォルトで88.2PDMSと84.3PDMSに達したことを示している。
さらに,我々のベスト・オブ・スリー・アンサンブル・ストラテジーは,マルチモーダル・ソリューション・スペースを効果的に拡張し,91.3 PDMSと87.5 PDMSに性能を向上させた。
量的および質的な分析の両方が、計画品質とスタイルの制御性におけるフレームワークの利点を共同で確認する。
関連論文リスト
- Hierarchically Decoupled Mixture-of-Experts for Robust Traffic Sign Recognition in Complex Driving Scenarios [6.121863091287242]
CBDES MoE TSRは、交通信号認識のための階層的に分離されたヘテロジニアス混合物(MoE)フレームワークである。
ゲーティングモジュールは、入力画像の意味特性に基づいて、エキスパートプールから最も適したエキスパートモデルを選択的に活性化する。
実験結果から,本手法は検出精度と効率の相違が顕著であることがわかった。
論文 参考訳(メタデータ) (2026-06-01T07:39:44Z) - HAD: Combining Hierarchical Diffusion with Metric-Decoupled RL for End-to-End Driving [51.268878540511054]
我々は階層的拡散政策を備えたエンドツーエンドの計画フレームワークであるHADを提案する。
我々は,NAVSIMとHUGSIMの両方でHADが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2026-04-04T04:12:47Z) - Coordinated Manipulation of Hybrid Deformable-Rigid Objects in Constrained Environments [3.915966095774856]
本研究は, ひずみに基づくコッサートロッドモデルを用いた準静電最適化に基づく操作プランナを提案する。
これは、厳密なツールで到達不能なオブジェクトに対して、タスク空間の目的を達成する一方で、制約を通して操作するための変形可能なリンクのコンプライアンスを利用する。
提案アルゴリズムは、様々なhDLOシステム上でのシミュレーションや、双腕ロボットシステムを用いた制約環境で操作された3リンクhDLOの実験で検証される。
論文 参考訳(メタデータ) (2026-03-13T12:34:49Z) - Model-Based Diffusion Sampling for Predictive Control in Offline Decision Making [48.998030470623384]
オフラインの意思決定は、さらなるインタラクションを伴わずに、固定データセットからの信頼性の高い振る舞いを必要とする。
i)タスク整列軌道を多様に生成するプランナー,(ii)システム力学との整合性を強制するダイナミクスモデル,(iii)タスク目標に整合した動作を選択するランサーモジュールからなる構成モデルに基づく拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-09T06:26:02Z) - DiffusionDriveV2: Reinforcement Learning-Constrained Truncated Diffusion Modeling in End-to-End Autonomous Driving [65.7087560656003]
エンドツーエンドの自動運転のための生成拡散モデルは、しばしばモード崩壊に悩まされる。
強化学習を利用して低品質モードを制約し,優れた軌道探索を行うDiffusionDriveV2を提案する。
これにより、そのコアであるガウス混合モデル固有の多重モード性を維持しながら、全体的な出力品質が大幅に向上する。
論文 参考訳(メタデータ) (2025-12-08T17:29:52Z) - Optimization-Guided Diffusion for Interactive Scene Generation [52.23368750264419]
本稿では,拡散型サンプリングにおける構造的一貫性と相互作用認識を実現するための,最適化誘導型トレーニングフリーフレームワークであるOMEGAを提案する。
OMEGAは生成リアリズム,一貫性,可制御性を向上し,身体的および行動学的に有効なシーンの比率を増大させることを示す。
当社のアプローチでは,3秒未満の時間対コリションで,より近いコリジョンフレームを5ドル(約5,500円)で生成することも可能だ。
論文 参考訳(メタデータ) (2025-12-08T15:56:18Z) - Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject Fidelity [35.95129874095729]
テキスト・トゥ・イメージ(T2I)モデルは単一エンタリティ・プロンプトに優れるが、多目的記述に苦慮する。
マルチオブジェクト忠実度に向けてサンプリングダイナミクスを操るための原理的最適化可能な目的を持った最初の理論的枠組みを導入する。
論文 参考訳(メタデータ) (2025-10-02T17:59:58Z) - EvaDrive: Evolutionary Adversarial Policy Optimization for End-to-End Autonomous Driving [17.57364638932072]
EvaDriveは、自動運転のための新しい強化学習フレームワークである。
ヒューマンライクな反復的意思決定のためのクローズドループ対向フレームワークを提供する。
NAVSIMとBench2Driveベンチマークの大規模な実験では、SOTAのパフォーマンスが示されている。
論文 参考訳(メタデータ) (2025-08-05T11:26:28Z) - DIMM: Decoupled Multi-hierarchy Kalman Filter for 3D Object Tracking [50.038098341549095]
状態推定は、高い操作性を持つ3次元物体追跡において困難である。
本稿では,各方向の異なる動きモデルから推定される推定を効果的に組み合わせる新しいフレームワークであるDIMMを提案する。
DIMMは既存の状態推定手法のトラッキング精度を31.61%99.23%向上させる。
論文 参考訳(メタデータ) (2025-05-18T10:12:41Z) - Haar Wavelet based Block Autoregressive Flows for Trajectories [129.37479472754083]
歩行者等の軌道予測は,自律型エージェントの性能向上に不可欠である。
本稿では分割結合を利用した新しいハールウェーブレットに基づくブロック自己回帰モデルを提案する。
実世界の2つのデータセット上で、多種多様な正確な軌跡を生成するアプローチの利点について説明する。
論文 参考訳(メタデータ) (2020-09-21T13:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。