論文の概要: FAR-Drive: Frame-AutoRegressive Video Generation in Closed-Loop Autonomous Driving
- arxiv url: http://arxiv.org/abs/2603.14938v1
- Date: Mon, 16 Mar 2026 07:40:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.139169
- Title: FAR-Drive: Frame-AutoRegressive Video Generation in Closed-Loop Autonomous Driving
- Title(参考訳): FAR-Drive:クローズドループ自動運転におけるフレーム自動回帰ビデオ生成
- Authors: Yaoru Li, Federico Landi, Marco Godi, Xin Jin, Ruiju Fu, Yufei Ma, Muyang Sun, Heyu Si, Qi Guo,
- Abstract要約: 自律運転のための学習ベースのクローズドループシミュレータの構築は、3つの大きな課題を提起する。
長期の時間的・横断的な一貫性、反復的自己条件下での自己回帰劣化の緩和、低遅延推論制約を満たす。
自動運転のためのフレームレベル自動回帰ビデオ生成フレームワークであるFAR-Driveを提案する。
- 参考スコア(独自算出の注目度): 11.275815014211046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite rapid progress in autonomous driving, reliable training and evaluation of driving systems remain fundamentally constrained by the lack of scalable and interactive simulation environments. Recent generative video models achieve remarkable visual fidelity, yet most operate in open-loop settings and fail to support fine-grained frame-level interaction between agent actions and environment evolution. Building a learning-based closed-loop simulator for autonomous driving poses three major challenges: maintaining long-horizon temporal and cross-view consistency, mitigating autoregressive degradation under iterative self-conditioning, and satisfying low-latency inference constraints. In this work, we propose FAR-Drive, a frame-level autoregressive video generation framework for autonomous driving. We introduce a multi-view diffusion transformer with fine-grained structured control, enabling geometrically consistent multi-camera generation. To address long-horizon consistency and iterative degradation, we design a two-stage training strategy consisting of adaptive reference horizon conditioning and blend-forcing autoregressive training, which progressively improves consistency and robustness under self-conditioning. To meet low-latency interaction requirements, we further integrate system-level efficiency optimizations for inference acceleration. Experiments on the nuScenes dataset demonstrate that our method achieves state-of-the-art performance among existing closed-loop autonomous driving simulation approaches, while maintaining sub-second latency on a single GPU.
- Abstract(参考訳): 自動運転の急速な進歩にもかかわらず、信頼性の高いトレーニングと運転システムの評価は、スケーラブルでインタラクティブなシミュレーション環境の欠如により、根本的な制約を受け続けている。
最近の生成ビデオモデルは、目覚ましい視覚的忠実さを実現するが、ほとんどの場合、オープンループ設定で動作し、エージェントアクションと環境進化の間のきめ細かいフレームレベルの相互作用をサポートしない。
自律運転のための学習ベースのクローズドループシミュレータの構築は、長期の時間的および横断的な一貫性を維持すること、反復的な自己条件下での自己回帰劣化を緩和すること、低レイテンシ推論制約を満たすこと、の3つの大きな課題を提起する。
本研究では,自動運転のためのフレームレベル自動回帰ビデオ生成フレームワークであるFAR-Driveを提案する。
微粒な構造制御が可能な多視点拡散変換器を導入し,幾何的に一貫したマルチカメラ生成を実現する。
長期の一貫性と反復劣化に対処するため,適応的基準地平線条件とブレンド強制自己回帰訓練からなる2段階の訓練戦略を設計し,自己条件下での一貫性と堅牢性を徐々に改善する。
低遅延相互作用要求を満たすため、推論加速のためのシステムレベルの効率最適化をさらに統合する。
nuScenesデータセットを用いた実験により,既存のクローズドループ自律運転シミュレーション手法において,1つのGPU上での秒未満のレイテンシを維持しながら,最先端の性能を実現することができた。
関連論文リスト
- Optimization-Guided Diffusion for Interactive Scene Generation [52.23368750264419]
本稿では,拡散型サンプリングにおける構造的一貫性と相互作用認識を実現するための,最適化誘導型トレーニングフリーフレームワークであるOMEGAを提案する。
OMEGAは生成リアリズム,一貫性,可制御性を向上し,身体的および行動学的に有効なシーンの比率を増大させることを示す。
当社のアプローチでは,3秒未満の時間対コリションで,より近いコリジョンフレームを5ドル(約5,500円)で生成することも可能だ。
論文 参考訳(メタデータ) (2025-12-08T15:56:18Z) - ViLaD: A Large Vision Language Diffusion Framework for End-to-End Autonomous Driving [14.486548540613791]
エンド・ツー・エンド・エンドの自動運転のための新しいLarge Vision Language DiffusionフレームワークであるViLaDを紹介する。
ViLaDは、駆動決定シーケンス全体の並列生成を可能にし、計算遅延を大幅に削減する。
我々はnuScenesデータセットの総合的な実験を行い、ViLaDは最先端の自己回帰的VLMベースラインを計画精度と推論速度の両方で上回ります。
論文 参考訳(メタデータ) (2025-08-18T04:01:56Z) - STAGE: A Stream-Centric Generative World Model for Long-Horizon Driving-Scene Simulation [42.73124501421074]
STAGEは、階層的な特徴調整と、持続可能なビデオ合成のためのマルチフェーズ最適化の先駆けとなる自動回帰フレームワークである。
HTFTはビデオ生成プロセスを通してビデオフレーム間の時間的一貫性を高める。
我々はNuscenesデータセット上で600フレームの高品質なドライビングビデオを生成しました。
論文 参考訳(メタデータ) (2025-06-16T06:53:05Z) - RIFT: Group-Relative RL Fine-Tuning for Realistic and Controllable Traffic Simulation [13.319344167881383]
データ駆動シミュレーターにおいて、模擬学習事前学習を行う2段階のAV中心シミュレーションフレームワークを導入する。
次に、物理に基づくシミュレータで微調整を学習し、スタイルレベルの制御性を向上する。
微調整段階において,新しいグループ関連RL微調整戦略であるRIFTを提案する。
論文 参考訳(メタデータ) (2025-05-06T09:12:37Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - Bench2Drive-R: Turning Real World Data into Reactive Closed-Loop Autonomous Driving Benchmark by Generative Model [63.336123527432136]
我々は,リアクティブ閉ループ評価を可能にする生成フレームワークであるBench2Drive-Rを紹介する。
既存の自動運転用ビデオ生成モデルとは異なり、提案された設計はインタラクティブなシミュレーションに適したものである。
我々は、Bench2Drive-Rの生成品質を既存の生成モデルと比較し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-12-11T06:35:18Z) - MagicDrive-V2: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control [68.74166535159311]
MagicDrive-V2は、MVDiTブロックと時空間条件エンコーディングを統合し、マルチビュービデオ生成と正確な幾何学的制御を可能にする新しいアプローチである。
これは、解像度が3.3倍、フレーム数が4.4倍のマルチビュー駆動ビデオ合成を可能にする(現在のSOTAと比較)。
論文 参考訳(メタデータ) (2024-11-21T03:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。