論文の概要: Addressing Corner Cases in Autonomous Driving: A World Model-based Approach with Mixture of Experts and LLMs
- arxiv url: http://arxiv.org/abs/2510.21867v1
- Date: Thu, 23 Oct 2025 11:41:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.920232
- Title: Addressing Corner Cases in Autonomous Driving: A World Model-based Approach with Mixture of Experts and LLMs
- Title(参考訳): 自動運転における角膜症例への対処--専門家とLLMの混在による世界モデルに基づくアプローチ
- Authors: Haicheng Liao, Bonan Wang, Junxian Yang, Chengyue Wang, Zhengbin He, Guohui Zhang, Chengzhong Xu, Zhenning Li,
- Abstract要約: WM-MoEは世界初の世界モデルベースモーション予測フレームワークである。
認識、時間記憶、意思決定を統一し、リスクの高いコーナーケースシナリオの課題に対処する。
WM-MoEは、最先端(SOTA)ベースラインを一貫して上回り、コーナーケースやデータ損失条件下では堅牢である。
- 参考スコア(独自算出の注目度): 30.363301425068162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate and reliable motion forecasting is essential for the safe deployment of autonomous vehicles (AVs), particularly in rare but safety-critical scenarios known as corner cases. Existing models often underperform in these situations due to an over-representation of common scenes in training data and limited generalization capabilities. To address this limitation, we present WM-MoE, the first world model-based motion forecasting framework that unifies perception, temporal memory, and decision making to address the challenges of high-risk corner-case scenarios. The model constructs a compact scene representation that explains current observations, anticipates future dynamics, and evaluates the outcomes of potential actions. To enhance long-horizon reasoning, we leverage large language models (LLMs) and introduce a lightweight temporal tokenizer that maps agent trajectories and contextual cues into the LLM's feature space without additional training, enriching temporal context and commonsense priors. Furthermore, a mixture-of-experts (MoE) is introduced to decompose complex corner cases into subproblems and allocate capacity across scenario types, and a router assigns scenes to specialized experts that infer agent intent and perform counterfactual rollouts. In addition, we introduce nuScenes-corner, a new benchmark that comprises four real-world corner-case scenarios for rigorous evaluation. Extensive experiments on four benchmark datasets (nuScenes, NGSIM, HighD, and MoCAD) showcase that WM-MoE consistently outperforms state-of-the-art (SOTA) baselines and remains robust under corner-case and data-missing conditions, indicating the promise of world model-based architectures for robust and generalizable motion forecasting in fully AVs.
- Abstract(参考訳): 正確で信頼性の高い動き予測は、自動運転車(AV)の安全な展開には不可欠である。
既存のモデルは、トレーニングデータにおける一般的なシーンの過剰表現と限定的な一般化能力により、これらの状況では性能が劣ることが多い。
この制限に対処するため、我々は、リスクの高いコーナーケースシナリオの課題に対処するために、知覚、時間記憶、意思決定を統一する最初の世界モデルベースのモーション予測フレームワークであるWM-MoEを提案する。
モデルは、現在の観測を説明するコンパクトなシーン表現を構築し、将来のダイナミクスを予測し、潜在的な行動の結果を評価する。
長期的推論を強化するために,大規模言語モデル(LLM)を活用し,エージェントのトラジェクトリとコンテキストキューをLLMの機能空間にマッピングし,時間的コンテキストとコモンセンスの先行性を向上する軽量なテンポラリトークンを導入している。
さらに、複雑なコーナーケースをサブプロブレムに分解し、シナリオタイプにまたがるキャパシティを割り当てるために、Mix-of-experts(MoE)を導入し、ルータは、エージェントの意図を推測し、反ファクト的なロールアウトを行う専門の専門家にシーンを割り当てる。
さらに、厳密な評価のための4つの実世界のコーナーケースシナリオを含む新しいベンチマークであるnuScenes-cornerを導入する。
4つのベンチマークデータセット(nuScenes、NGSIM、HighD、MoCAD)の大規模な実験では、WM-MoEは最先端(SOTA)ベースラインを一貫して上回り、コーナーケースとデータ欠落条件下で堅牢であり、完全なAVで堅牢で一般化可能なモーション予測のための世界モデルベースのアーキテクチャが約束されていることを示している。
関連論文リスト
- Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation [54.3628937181904]
内部世界モデル(英語版)(WM)は、エージェントが世界の状態を理解し、遷移を予測することを可能にする。
近年,OpenAI o3, GPT-4o, Geminiなどの大規模視覚言語モデル(VLM)は汎用的なWMとしての可能性を示している。
論文 参考訳(メタデータ) (2025-06-27T03:24:29Z) - INSIGHT: Enhancing Autonomous Driving Safety through Vision-Language Models on Context-Aware Hazard Detection and Edge Case Evaluation [7.362380225654904]
INSIGHTは、危険検出とエッジケース評価を強化するために設計された階層型視覚言語モデル(VLM)フレームワークである。
本手法は,マルチモーダルデータ融合を用いて意味表現と視覚表現を統合し,運転シナリオの正確な解釈を可能にする。
BDD100Kデータセットの実験結果は、既存のモデルよりもハザード予測の正確性と正確性を大幅に改善したことを示している。
論文 参考訳(メタデータ) (2025-02-01T01:43:53Z) - Realistic Corner Case Generation for Autonomous Vehicles with Multimodal Large Language Model [10.741225574706]
AutoScenarioは、現実的なコーナーケース生成のためのフレームワークである。
複数の情報源からの安全クリティカルな現実世界データをテキスト表現に変換する。
シミュレーション・オブ・アーバンモビリティ(SUMO)とCARLAシミュレータのツールを統合している。
論文 参考訳(メタデータ) (2024-11-29T20:23:28Z) - Generating Out-Of-Distribution Scenarios Using Language Models [58.47597351184034]
大規模言語モデル(LLM)は自動運転において有望であることを示している。
本稿では,多様なOF-Distribution(OOD)駆動シナリオを生成するためのフレームワークを提案する。
我々は、広範囲なシミュレーションを通じてフレームワークを評価し、新しい"OOD-ness"メトリクスを導入する。
論文 参考訳(メタデータ) (2024-11-25T16:38:17Z) - GraphSCENE: On-Demand Critical Scenario Generation for Autonomous Vehicles in Simulation [11.896059467313668]
本研究では,多様なトラフィックシナリオに対応する動的時間的シーングラフをオンデマンドで生成し,ユーザ定義の好みに合わせて作成する手法を提案する。
時間的グラフニューラルネットワーク(GNN)モデルは、実世界の相互作用パターンによって導かれる、エゴ・車両エージェントと静的構造の関係を予測することを学習する。
予測されたシナリオをシミュレーションでレンダリングし、AVエージェントのテスト環境としての有効性をさらに実証する。
論文 参考訳(メタデータ) (2024-10-17T13:02:06Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - JRDB-Traj: A Dataset and Benchmark for Trajectory Forecasting in Crowds [79.00975648564483]
ロボット工学、自動運転車、ナビゲーションなどの分野で使用される軌道予測モデルは、現実のシナリオにおいて課題に直面している。
このデータセットは、ロボットの観点から、すべてのエージェント、シーンイメージ、ポイントクラウドの位置を含む包括的なデータを提供する。
本研究の目的は,ロボットに対するエージェントの将来の位置を,生の感覚入力データを用いて予測することである。
論文 参考訳(メタデータ) (2023-11-05T18:59:31Z) - MUSE-VAE: Multi-Scale VAE for Environment-Aware Long Term Trajectory
Prediction [28.438787700968703]
条件付きMUSEは、現在の最先端技術と比較して、多様かつ同時に正確な予測を提供する。
我々は、新しい合成データセットであるPFSDと同様に、nuScenesとSDDベンチマークに関する包括的な実験を通してこれらのアサーションを実証する。
論文 参考訳(メタデータ) (2022-01-18T18:40:03Z) - Temporal Predictive Coding For Model-Based Planning In Latent Space [80.99554006174093]
時間的に予測可能な環境要素を符号化するために,時間的予測符号化を用いた情報理論的手法を提案する。
本稿では,DMControl タスクの背景を複雑な情報を含む自然なビデオに置き換える,標準的な DMControl タスクの挑戦的な修正について評価する。
論文 参考訳(メタデータ) (2021-06-14T04:31:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。