論文の概要: DCARL: A Divide-and-Conquer Framework for Autoregressive Long-Trajectory Video Generation
- arxiv url: http://arxiv.org/abs/2603.24835v1
- Date: Wed, 25 Mar 2026 22:07:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:47.99909
- Title: DCARL: A Divide-and-Conquer Framework for Autoregressive Long-Trajectory Video Generation
- Title(参考訳): DCARL: 自己回帰型ロングトラジェクトリビデオ生成のための分枝・コンバータフレームワーク
- Authors: Junyi Ouyang, Wenbin Teng, Gonglin Chen, Yajie Zhao, Haiwei Chen,
- Abstract要約: DCARLは、分割・変換方式の構造安定性と高忠実度VDMの生成を結合した、新規な分割・変換型自己回帰フレームワークである。
提案手法は,最先端の自己回帰的・分割型ベースラインと比較して,視覚的品質とカメラの密着性の両方において優れた性能を実現する。
- 参考スコア(独自算出の注目度): 10.575655795360937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-trajectory video generation is a crucial yet challenging task for world modeling primarily due to the limited scalability of existing video diffusion models (VDMs). Autoregressive models, while offering infinite rollout, suffer from visual drift and poor controllability. To address these issues, we propose DCARL, a novel divide-and-conquer, autoregressive framework that effectively combines the structural stability of the divide-and-conquer scheme with the high-fidelity generation of VDMs. Our approach first employs a dedicated Keyframe Generator trained without temporal compression to establish long-range, globally consistent structural anchors. Subsequently, an Interpolation Generator synthesizes the dense frames in an autoregressive manner with overlapping segments, utilizing the keyframes for global context and a single clean preceding frame for local coherence. Trained on a large-scale internet long trajectory video dataset, our method achieves superior performance in both visual quality (lower FID and FVD) and camera adherence (lower ATE and ARE) compared to state-of-the-art autoregressive and divide-and-conquer baselines, demonstrating stable and high-fidelity generation for long trajectory videos up to 32 seconds in length.
- Abstract(参考訳): 長軌道ビデオ生成は、既存のビデオ拡散モデル(VDM)のスケーラビリティが限られているため、世界モデリングにおいて重要な課題である。
自動回帰モデルは、無限のロールアウトを提供する一方で、視覚的なドリフトと制御性に悩まされている。
これらの問題に対処するために,分割・分離方式の構造安定性と高忠実度VDMの生成を効果的に組み合わせた,新規な分割・分離型自己回帰フレームワークDCARLを提案する。
当社のアプローチではまず,時間的圧縮を伴わない専用キーフレームジェネレータを使用して,長距離で一貫した構造アンカーを確立する。
その後、補間ジェネレータは、重なり合うセグメントで高密度フレームを自己回帰的に合成し、グローバルコンテキストのキーフレームと局所コヒーレンスのための1つのクリーン先行フレームを利用する。
大規模インターネット長軌跡ビデオデータセットを用いて学習し,映像の画質(FID,FVD)とカメラの付着(ATE,ARE)の両面において,最先端の自己回帰的・分断的ベースラインと比較して優れた性能を示し,32秒間までの長軌跡ビデオに対して安定した高忠実度生成を示す。
関連論文リスト
- Towards Holistic Modeling for Video Frame Interpolation with Auto-regressive Diffusion Transformers [95.68243351895107]
我々はtextbfVideo textbfFrame textbfInterpolation (LDF-VFI) のための textbfLocal textbfDiffusion textbfForcing for textbfVideo textbfFrame textbfInterpolation (LDF-VFI) という包括的でビデオ中心のパラダイムを提案する。
我々のフレームワークは、ビデオシーケンス全体をモデル化し、長距離時間的コヒーレンスを確保する自動回帰拡散変換器上に構築されている。
LDF-VFIは、挑戦的なロングシーケンスベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-21T12:58:52Z) - Towards Robust and Generalizable Continuous Space-Time Video Super-Resolution with Events [71.2439653098351]
連続時空ビデオスーパーSTVSRは、高解像度で高フレームのビデオを任意の時間スケールで再構成する能力への関心が高まっている。
EvEnhancerは、イベントストリームにカプセル化された高時間および高ダイナミックレンジのユニークな特性を結合する新しいアプローチである。
提案手法は,OODスケールでの一般化性を維持しつつ,合成および実世界の両方のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-10-04T15:23:07Z) - STAGE: A Stream-Centric Generative World Model for Long-Horizon Driving-Scene Simulation [42.73124501421074]
STAGEは、階層的な特徴調整と、持続可能なビデオ合成のためのマルチフェーズ最適化の先駆けとなる自動回帰フレームワークである。
HTFTはビデオ生成プロセスを通してビデオフレーム間の時間的一貫性を高める。
我々はNuscenesデータセット上で600フレームの高品質なドライビングビデオを生成しました。
論文 参考訳(メタデータ) (2025-06-16T06:53:05Z) - Long-Context Autoregressive Video Modeling with Next-Frame Prediction [17.710915002557996]
長文ビデオモデリングは、生成モデルが世界シミュレータとして機能するために不可欠である。
長いビデオで直接トレーニングすることは自然な解決策だが、視覚トークンの急速な成長は計算的に禁止する。
フレームオートレグレッシブ(FAR)モデルを提案し、連続フレーム間の時間的依存関係をモデル化し、ビデオ拡散変換器よりも高速に収束し、トークンレベルの自己回帰モデルより優れる。
論文 参考訳(メタデータ) (2025-03-25T03:38:06Z) - Generative Inbetweening through Frame-wise Conditions-Driven Video Generation [63.43583844248389]
生成的inbetweeningは、2つのキーフレームを入力として利用することで中間フレームシーケンスを生成することを目的としている。
補間ビデオフレームの時間的安定性を著しく向上するフレームワイド・コンディション駆動ビデオ生成法(FCVG)を提案する。
FCVGは線形曲線と非線形曲線の両方を用いて時間的に安定なビデオを生成する能力を示した。
論文 参考訳(メタデータ) (2024-12-16T13:19:41Z) - ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models [66.84478240757038]
ビデオ拡散モデル(VDM)の大多数は、自己回帰的な方法で長いビデオを生成する。
我々は、VDMに因果生成(すなわち一方向)を導入し、過去のフレームを将来のフレームを生成するプロンプトとして利用する。
我々のVD-GPTは、長大なビデオ生成において、定量的かつ質的に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-16T15:37:22Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。