論文の概要: Real-Time Motion-Controllable Autoregressive Video Diffusion
- arxiv url: http://arxiv.org/abs/2510.08131v1
- Date: Thu, 09 Oct 2025 12:17:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.057981
- Title: Real-Time Motion-Controllable Autoregressive Video Diffusion
- Title(参考訳): リアルタイム運動制御型自己回帰ビデオ拡散
- Authors: Kesen Zhao, Jiaxin Shi, Beier Zhu, Junbao Zhou, Xiaolong Shen, Yuan Zhou, Qianru Sun, Hanwang Zhang,
- Abstract要約: 本稿では,AR-Dragを提案する。このAR-Dragは,多様なモーション制御を備えたリアルタイム画像・ビデオ生成のための,RLで拡張された最初の数ステップのARビデオ拡散モデルである。
まず,基本動作制御をサポートするためのベースI2Vモデルを微調整し,さらに軌道ベース報酬モデルによる強化により改良する。
本設計では、自己学習機構を通じてマルコフ特性を保存し、ステップを選択的に分解することで訓練を加速する。
- 参考スコア(独自算出の注目度): 79.32730467857535
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Real-time motion-controllable video generation remains challenging due to the inherent latency of bidirectional diffusion models and the lack of effective autoregressive (AR) approaches. Existing AR video diffusion models are limited to simple control signals or text-to-video generation, and often suffer from quality degradation and motion artifacts in few-step generation. To address these challenges, we propose AR-Drag, the first RL-enhanced few-step AR video diffusion model for real-time image-to-video generation with diverse motion control. We first fine-tune a base I2V model to support basic motion control, then further improve it via reinforcement learning with a trajectory-based reward model. Our design preserves the Markov property through a Self-Rollout mechanism and accelerates training by selectively introducing stochasticity in denoising steps. Extensive experiments demonstrate that AR-Drag achieves high visual fidelity and precise motion alignment, significantly reducing latency compared with state-of-the-art motion-controllable VDMs, while using only 1.3B parameters. Additional visualizations can be found on our project page: https://kesenzhao.github.io/AR-Drag.github.io/.
- Abstract(参考訳): 双方向拡散モデルの本質的な遅延と効果的な自己回帰(AR)アプローチの欠如により、リアルタイムのモーションコントロール可能なビデオ生成は依然として困難である。
既存のARビデオ拡散モデルは、単純な制御信号やテキスト・ツー・ビデオ生成に限られており、しばしば数ステップの世代で品質劣化やモーションアーティファクトに悩まされる。
これらの課題に対処するため、我々は、多様なモーション制御を備えたリアルタイム画像-映像生成のための、RLで拡張された最初の数ステップのARビデオ拡散モデルであるAR-Dragを提案する。
まず、基本動作制御をサポートするベースI2Vモデルを微調整し、さらに軌道に基づく報酬モデルを用いて強化学習により改善する。
本設計では,自己回転機構を用いてマルコフ特性を保存し,ステップの確率性を選択的に導入することで訓練を加速する。
広汎な実験により、AR-Dragは1.3Bパラメータのみを使用しながら、高い視覚的忠実度と正確な動きアライメントを実現し、最先端のモーションコントロール可能なVDMと比較して遅延を著しく低減することを示した。
さらなる視覚化は、プロジェクトのページ(https://kesenzhao.github.io/AR-Drag.github.io/)で確認できます。
関連論文リスト
- Extrapolating and Decoupling Image-to-Video Generation Models: Motion Modeling is Easier Than You Think [24.308538128761985]
Image-to-Video(I2V)生成は、所定の画像と条件(テキストなど)に応じてビデオクリップを合成することを目的としている。
このタスクの主な課題は、画像の本来の外観を維持しながら、自然の動きを同時に生成することである。
本稿では,I2V領域にモデルマージ技術を導入した新しい外挿デカップリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-02T16:06:16Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。
潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。
適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文 参考訳(メタデータ) (2024-10-27T16:28:28Z) - LaMD: Latent Motion Diffusion for Image-Conditional Video Generation [63.34574080016687]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
LaMDは、BAIR、Landscape、NATOPS、MUG、CATER-GENなど、さまざまなベンチマークデータセットで高品質なビデオを生成する。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。