論文の概要: DynVLA: Learning World Dynamics for Action Reasoning in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2603.11041v1
- Date: Wed, 11 Mar 2026 17:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:33.09609
- Title: DynVLA: Learning World Dynamics for Action Reasoning in Autonomous Driving
- Title(参考訳): DynVLA: 自律運転におけるアクション推論のための世界ダイナミクスの学習
- Authors: Shuyao Shang, Bing Zhan, Yunfei Yan, Yuqi Wang, Yingyan Li, Yasong An, Xiaoman Wang, Jierui Liu, Lu Hou, Lue Fan, Zhaoxiang Zhang, Tieniu Tan,
- Abstract要約: DynVLAは、Dynamics CoTと呼ばれる新しいCoTパラダイムを導入した駆動VLAモデルである。
コンパクトなダイナミクス表現を得るために、DynVLAは、将来の進化を小さなダイナミックストークンに圧縮するDynamic Tokenizerを導入した。
相互作用集約運転シナリオにおける豊かな環境ダイナミクスを考えると、DynVLAはエゴ中心と環境中心のダイナミクスを分離し、より正確な世界ダイナミクスを生み出す。
- 参考スコア(独自算出の注目度): 47.8729375581201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose DynVLA, a driving VLA model that introduces a new CoT paradigm termed Dynamics CoT. DynVLA forecasts compact world dynamics before action generation, enabling more informed and physically grounded decision-making. To obtain compact dynamics representations, DynVLA introduces a Dynamics Tokenizer that compresses future evolution into a small set of dynamics tokens. Considering the rich environment dynamics in interaction-intensive driving scenarios, DynVLA decouples ego-centric and environment-centric dynamics, yielding more accurate world dynamics modeling. We then train DynVLA to generate dynamics tokens before actions through SFT and RFT, improving decision quality while maintaining latency-efficient inference. Compared to Textual CoT, which lacks fine-grained spatiotemporal understanding, and Visual CoT, which introduces substantial redundancy due to dense image prediction, Dynamics CoT captures the evolution of the world in a compact, interpretable, and efficient form. Extensive experiments on NAVSIM, Bench2Drive, and a large-scale in-house dataset demonstrate that DynVLA consistently outperforms Textual CoT and Visual CoT methods, validating the effectiveness and practical value of Dynamics CoT.
- Abstract(参考訳): 我々は、新しいCoTパラダイムであるDynamics CoTを導入する駆動VLAモデルであるDynVLAを提案する。
DynVLAはアクション生成の前にコンパクトな世界ダイナミクスを予測し、より情報と物理的に根ざした意思決定を可能にする。
コンパクトなダイナミクス表現を得るために、DynVLAは、将来の進化を小さなダイナミックストークンに圧縮するDynamic Tokenizerを導入した。
相互作用集約運転シナリオにおける豊かな環境ダイナミクスを考えると、DynVLAはエゴ中心と環境中心のダイナミクスを分離し、より正確な世界ダイナミクスモデリングをもたらす。
次に、SFTおよびRFTを介してアクションの前に動的トークンを生成するようDynVLAを訓練し、レイテンシ効率のよい推論を維持しながら、意思決定品質を向上させる。
微細な時空間的理解に欠けるTextual CoTや、高密度画像予測によるかなりの冗長性をもたらすVisual CoTと比較して、Dynamics CoTは、コンパクトで解釈可能で効率的な形式で世界の進化を捉えている。
NAVSIM、Bench2Drive、および大規模な社内データセットに関する大規模な実験では、DynVLAがTextual CoTとVisual CoTメソッドを一貫して上回り、Dynamics CoTの有効性と実用性を検証する。
関連論文リスト
- DDP-WM: Disentangled Dynamics Prediction for Efficient World Models [79.53092337527382]
本稿では,DDP-WMについて紹介する。DDP-WMはDDP-WM(Distangled Dynamics Prediction)の原理に基づく新しい世界モデルである。
DDP-WMは、効率的な履歴処理と動的ローカライゼーションを統合したアーキテクチャにより、この分解を実現する。
実験により、DDP-WMは様々なタスクにおいて、大幅な効率と性能を達成することが示された。
論文 参考訳(メタデータ) (2026-02-02T08:04:25Z) - Prismatic World Model: Learning Compositional Dynamics for Planning in Hybrid Systems [38.4555621948915]
Prismatic World Model (PRISM-WM) は複雑なハイブリッド力学を構成可能なプリミティブに分解するように設計されている。
PRISM-WMは系力学におけるシャープモード遷移を正確にモデル化することでロールアウトドリフトを著しく低減する。
論文 参考訳(メタデータ) (2025-12-09T09:40:34Z) - Vehicle Dynamics Embedded World Models for Autonomous Driving [13.012978896886134]
環境遷移力学からエゴ車両力学のモデリングを分離したVDD法を提案する。
提案モデルでは,車両動特性の変動に対して駆動性能とロバスト性の両方を向上し,既存手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2025-12-02T04:57:52Z) - ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - Towards Human-Like Trajectory Prediction for Autonomous Driving: A Behavior-Centric Approach [22.81464823797471]
HiT(Human-like Trajectory Prediction, Human-like Trajectory Prediction)は、行動認識モジュールと動的集中度を組み込むことで、軌道予測を強化するために設計された新しいモデルである。
HiTの性能を評価するために,多種多様な実世界のデータセットを用いて広範な実験を行った。
論文 参考訳(メタデータ) (2025-05-27T05:04:01Z) - A PID-Controlled Tensor Wheel Decomposition Model for Dynamic Link Prediction [3.525733859925913]
本研究では, PID制御型テンソルホイール分解(PTWD)モデルについて述べる。
提案するPTWDモデルは,他のモデルと比較して高精度なリンク予測機能を有する。
論文 参考訳(メタデータ) (2025-05-20T11:14:30Z) - Generative Pre-trained Autoregressive Diffusion Transformer [74.25668109048418]
GPDiT(GPDiT)は、自動回帰拡散変換器である。
長距離ビデオ合成における拡散と自己回帰モデリングの強みを統一する。
拡散損失を用いて将来の潜伏フレームを自動回帰予測し、運動力学の自然なモデリングを可能にする。
論文 参考訳(メタデータ) (2025-05-12T08:32:39Z) - Context-aware Dynamics Model for Generalization in Model-Based
Reinforcement Learning [124.9856253431878]
グローバルなダイナミクスモデルを学習するタスクを,(a)ローカルなダイナミクスをキャプチャするコンテキスト潜在ベクトルを学習し,(b)次に条件付き状態を予測するという2つの段階に分割する。
本研究では,コンテキスト潜在ベクトルに動的情報をエンコードするために,コンテキスト潜在ベクトルを前方と後方の両方のダイナミクスを予測するのに役立つような新しい損失関数を導入する。
提案手法は,既存のRL方式と比較して,様々なシミュレーションロボットや制御タスクの一般化能力に優れる。
論文 参考訳(メタデータ) (2020-05-14T08:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。