論文の概要: HorizonDrive: Self-Corrective Autoregressive World Model for Long-horizon Driving Simulation
- arxiv url: http://arxiv.org/abs/2605.11596v1
- Date: Tue, 12 May 2026 06:22:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.627419
- Title: HorizonDrive: Self-Corrective Autoregressive World Model for Long-horizon Driving Simulation
- Title(参考訳): HorizonDrive:ロングホライゾン駆動シミュレーションのための自己補正型自己回帰世界モデル
- Authors: Conglang Zhang, Yifan Zhan, Qingjie Wang, Zhanpeng Ouyang, Yu Li, Zihao Yang, Xiaoyang Guo, Weiqiang Ren, Qian Zhang, Zhen Dong, Yinqiang Zheng, Wei Yin, Zhengqing Chen,
- Abstract要約: HorizonDriveはAR駆動シミュレーションのためのアンチドリフティングトレーニング・アンド・蒸留フレームワークである。
境界メモリ下でのミニスケールARロールアウトをサポートする。
FIDを52%下げ、FVDを37%下げ、AREとDTWを9%下げる。
- 参考スコア(独自算出の注目度): 43.56520703300463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Closed-loop driving simulation requires real-time interaction beyond short offline clips, pushing current driving world models toward autoregressive (AR) rollout. Existing AR distillation approaches typically rely on frame sinks or student-side degradation training. The former transfers poorly to driving due to fast ego-motion and rapid scene changes, while the latter remains bounded by the teacher's single-pass output length and thus provides only a limited supervision horizon. A natural question is: can the teacher itself be extended via AR rollout to provide unbounded-horizon supervision at bounded memory cost? The key difficulty is that a standard teacher drifts under its own predictions, contaminating the supervision it provides. Our key insight is to make the teacher rollout-capable, ensuring reliable supervision from its own AR rollouts. This is instantiated as HorizonDrive, an anti-drifting training-and-distillation framework for AR driving simulation. First, scheduled rollout recovery (SRR) trains the base model to reconstruct ground-truth future clips from prediction-corrupted histories, yielding a teacher that remains stable across long AR rollouts. Second, the rollout-capable teacher is extended via AR rollout, providing long-horizon distribution-matching supervision under bounded memory, while a short-window student aligns to it with teacher rollout DMD (TRD) for efficient real-time deployment. HorizonDrive natively supports minute-scale AR rollout under bounded memory; on nuScenes, HorizonDrive reduces FID by 52% and FVD by 37%, and lowers ARE and DTW by 21% and 9% relative to the strongest long-horizon streaming baselines, while remaining competitive with single-pass driving video generators.
- Abstract(参考訳): クローズドループ駆動シミュレーションは、短いオフラインクリップ以上のリアルタイムインタラクションを必要とし、現在の駆動世界モデルを自動回帰(AR)ロールアウトにプッシュする。
既存のAR蒸留手法は一般的にフレームシンクや学生側の劣化訓練に頼っている。
前者は高速なエゴモーションと急激なシーンの変化のために運転に不向きであり、後者は教師のシングルパス出力長によって拘束されているため、限られた監督地平線しか提供しない。
自然な疑問は、教師自身をARロールアウトを通じて拡張して、境界メモリコストで非境界水平監視を提供できるか、ということです。
重要な難点は、標準教師が独自の予測の下で漂流し、それが提供する監督を汚染することである。
私たちの重要な洞察は、教師のロールアウトを可能とし、自身のARロールアウトから信頼できる監督を保証することです。
これは、AR駆動シミュレーションのためのアンチドリフティングトレーニングと蒸留フレームワークであるHorizonDriveとしてインスタンス化されている。
第一に、スケジュールされたロールアウトリカバリ(SRR)がベースモデルをトレーニングし、予測が破損した履歴から地中真直近のクリップを再構築し、長いARロールアウトで安定した教師を生み出す。
第二に、ロールアウト可能な教師はARロールアウトにより拡張され、長期の分散マッチング管理を境界メモリ下で提供し、短ウィンドウの学生は教師ロールアウトDMD(TRD)と整列して、効率的なリアルタイムデプロイメントを実現する。
nuScenesでは、HorizonDriveはFIDを52%、FVDを37%削減し、AREとDTWを最強のロングホライゾンストリーミングベースラインに比べて21%、9%下げる一方で、シングルパス駆動ビデオジェネレータと競合する。
関連論文リスト
- EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation [58.84721000276226]
EvoDriveVLAは、新しい協調認識計画フレームワークである。
自己認識の知覚的制約とオラクル誘導軌道最適化を統合している。
EvoDriveVLAはオープンループ評価におけるSOTA性能を実現し,クローズドループ評価における性能を大幅に向上させる。
論文 参考訳(メタデータ) (2026-03-10T10:19:07Z) - LIVE: Long-horizon Interactive Video World Modeling [39.52605866460851]
Long-Horizon Interactive Video world modElは、新しいサイクル一貫性の目的を通じて境界付きエラー蓄積を実行する。
Liveはロングホライゾンベンチマークで最先端のパフォーマンスを達成し、ロールアウト期間のトレーニングを超えて、安定した高品質のビデオを生成する。
論文 参考訳(メタデータ) (2026-02-03T17:10:03Z) - Drive-KD: Multi-Teacher Distillation for VLMs in Autonomous Driving [26.97190983537793]
本稿では、自動運転を「パーセプション推論計画」三脚に分解するフレームワークであるDrive-KDを提案する。
基本ラインを上回り,機能固有の単教師モデルを構築するための蒸留信号として,層固有の注意を識別する。
実験により, 蒸留したInternVL3-1Bモデルは, 42倍のGPUメモリと11.4倍のスループットを有し, 事前学習した78Bモデルよりも全体的な性能が向上していることがわかった。
論文 参考訳(メタデータ) (2026-01-29T05:41:24Z) - MindDrive: A Vision-Language-Action Model for Autonomous Driving via Online Reinforcement Learning [51.20229133553804]
自律運転における現在のビジョン・ランゲージ・アクション(VLA)パラダイムは主に模倣学習(IL)に依存している
オンライン強化学習は、トライアル・アンド・エラー学習を通じてこれらの問題に対処するための有望な経路を提供する。
大規模言語モデル(LLM)と2つの異なるLoRAパラメータからなるVLAフレームワークであるMindDriveを提案する。
軌道レベルの報酬を推論空間に戻すことで、MindDriveは、限定的な言語駆動決定の有限セットに対する試行錯誤学習を可能にする。
論文 参考訳(メタデータ) (2025-12-15T18:31:32Z) - GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training [70.77088051192334]
視覚言語モデル(VLM)上に構築されたマルチモーダルエージェントのためのマルチターン強化学習(RL)は、スパース報酬と長期クレジット割り当てによって妨げられる。
近年の方法は、段階的なフィードバックを提供する教師、例えば、ガイドド・シント・強化(GTR)とオン・ポリシィ蒸留(On-Policy Distillation)をクエリすることで報酬を強化する。
本稿では,GTRの高効率アップグレードであるGTR-Turboについて紹介する。
論文 参考訳(メタデータ) (2025-12-15T07:11:56Z) - BAgger: Backwards Aggregation for Mitigating Drift in Autoregressive Video Diffusion Models [50.986189632485285]
モデル自身のロールアウトから補正軌道を構築する自己教師型スキームであるバックワードアグリゲーション(BAgger)を導入する。
数段階の蒸留と分配整合損失に依存する従来のアプローチとは異なり、BAggerは標準的なスコアやフローマッチングの目的を持つ列車である。
因果拡散変換器でBAggerをインスタンス化し、テキスト・ツー・ビデオ、ビデオ・エクステンション、マルチプロンプト・ジェネレーションで評価する。
論文 参考訳(メタデータ) (2025-12-12T23:02:02Z) - ComDrive: Comfort-Oriented End-to-End Autonomous Driving [29.635377468912534]
ComDriveは、快適なエンドツーエンドの自動運転システムである。
時間的に一貫性があり、快適な軌道を生成する。
ComDriveは、快適さと安全性の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-07T14:06:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。