論文の概要: Real-Time Motion-Controllable Autoregressive Video Diffusion
- arxiv url: http://arxiv.org/abs/2510.08131v2
- Date: Wed, 15 Oct 2025 21:37:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 11:58:42.060669
- Title: Real-Time Motion-Controllable Autoregressive Video Diffusion
- Title(参考訳): リアルタイム運動制御型自己回帰ビデオ拡散
- Authors: Kesen Zhao, Jiaxin Shi, Beier Zhu, Junbao Zhou, Xiaolong Shen, Yuan Zhou, Qianru Sun, Hanwang Zhang,
- Abstract要約: 本稿では,AR-Dragを提案する。このAR-Dragは,多様なモーション制御を備えたリアルタイム画像・ビデオ生成のための,RLで拡張された最初の数ステップのARビデオ拡散モデルである。
まず,基本動作制御をサポートするためのベースI2Vモデルを微調整し,さらに軌道ベース報酬モデルによる強化により改良する。
本設計では、自己学習機構を通じてマルコフ特性を保存し、ステップを選択的に分解することで訓練を加速する。
- 参考スコア(独自算出の注目度): 79.32730467857535
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Real-time motion-controllable video generation remains challenging due to the inherent latency of bidirectional diffusion models and the lack of effective autoregressive (AR) approaches. Existing AR video diffusion models are limited to simple control signals or text-to-video generation, and often suffer from quality degradation and motion artifacts in few-step generation. To address these challenges, we propose AR-Drag, the first RL-enhanced few-step AR video diffusion model for real-time image-to-video generation with diverse motion control. We first fine-tune a base I2V model to support basic motion control, then further improve it via reinforcement learning with a trajectory-based reward model. Our design preserves the Markov property through a Self-Rollout mechanism and accelerates training by selectively introducing stochasticity in denoising steps. Extensive experiments demonstrate that AR-Drag achieves high visual fidelity and precise motion alignment, significantly reducing latency compared with state-of-the-art motion-controllable VDMs, while using only 1.3B parameters. Additional visualizations can be found on our project page: https://kesenzhao.github.io/AR-Drag.github.io/.
- Abstract(参考訳): 双方向拡散モデルの本質的な遅延と効果的な自己回帰(AR)アプローチの欠如により、リアルタイムのモーションコントロール可能なビデオ生成は依然として困難である。
既存のARビデオ拡散モデルは、単純な制御信号やテキスト・ツー・ビデオ生成に限られており、しばしば数ステップの世代で品質劣化やモーションアーティファクトに悩まされる。
これらの課題に対処するため、我々は、多様なモーション制御を備えたリアルタイム画像-映像生成のための、RLで拡張された最初の数ステップのARビデオ拡散モデルであるAR-Dragを提案する。
まず、基本動作制御をサポートするベースI2Vモデルを微調整し、さらに軌道に基づく報酬モデルを用いて強化学習により改善する。
本設計では,自己回転機構を用いてマルコフ特性を保存し,ステップの確率性を選択的に導入することで訓練を加速する。
広汎な実験により、AR-Dragは1.3Bパラメータのみを使用しながら、高い視覚的忠実度と正確な動きアライメントを実現し、最先端のモーションコントロール可能なVDMと比較して遅延を著しく低減することを示した。
さらなる視覚化は、プロジェクトのページ(https://kesenzhao.github.io/AR-Drag.github.io/)で確認できます。
関連論文リスト
- Masked Modeling for Human Motion Recovery Under Occlusions [21.05382087890133]
MoRoは、ビデオコンディショニングタスクとしてモーション再構成を定式化する、エンドツーエンドの生成フレームワークである。
MoRoは、1つのH200 GPU上で70FPSのリアルタイム推論を実現する。
論文 参考訳(メタデータ) (2026-01-22T16:22:20Z) - Robotic VLA Benefits from Joint Learning with Motion Image Diffusion [114.60268819583017]
VLA(Vision-Language-Action)モデルは、マルチモーダルな観察と指示を直接行動にマッピングすることで、ロボット操作において顕著な進歩を遂げた。
動き推論機能を備えたVLAモデルを強化する新しい戦略である動き画像拡散を用いた共同学習を提案する。
シミュレーションと実世界の両方の環境での実験により、モーション画像拡散による共同学習がpiシリーズVLAの成功率を97.5%に向上させることが示された。
論文 参考訳(メタデータ) (2025-12-19T19:07:53Z) - DRAW2ACT: Turning Depth-Encoded Trajectories into Robotic Demonstration Videos [24.681248200255975]
ビデオモデルは、組み込みAIのための強力な現実世界シミュレータを提供するが、ロボット操作の制御性には制限がある。
入力軌跡から複数の表現を抽出するトラジェクトリ条件付きビデオ生成フレームワークであるDRAW2ACTを提案する。
DRAW2ACTは、既存のベースラインよりも高い操作成功率を示しながら、より優れた視覚的忠実度と一貫性を実現する。
論文 参考訳(メタデータ) (2025-12-16T09:11:36Z) - VimoRAG: Video-based Retrieval-augmented 3D Motion Generation for Motion Language Models [110.32291962407078]
VimoRAG(ヴィモラグ)は、動画に基づく大規模言語モデルのためのモーション生成フレームワークである。
動作中心の効果的なビデオ検索モデルを開発し、最適下検索結果による誤り伝播の問題を緩和する。
実験結果から,VimoRAGはテキストのみの入力に制約された動きLLMの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-16T15:31:14Z) - Extrapolating and Decoupling Image-to-Video Generation Models: Motion Modeling is Easier Than You Think [24.308538128761985]
Image-to-Video(I2V)生成は、所定の画像と条件(テキストなど)に応じてビデオクリップを合成することを目的としている。
このタスクの主な課題は、画像の本来の外観を維持しながら、自然の動きを同時に生成することである。
本稿では,I2V領域にモデルマージ技術を導入した新しい外挿デカップリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-02T16:06:16Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。
潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。
適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文 参考訳(メタデータ) (2024-10-27T16:28:28Z) - EMDM: Efficient Motion Diffusion Model for Fast and High-Quality Motion Generation [57.539634387672656]
現在の最先端生成拡散モデルでは、優れた結果が得られたが、品質を犠牲にすることなく、高速な生成に苦慮している。
高速かつ高品質な人体運動生成のための効率的な運動拡散モデル(EMDM)を提案する。
論文 参考訳(メタデータ) (2023-12-04T18:58:38Z) - LaMD: Latent Motion Diffusion for Image-Conditional Video Generation [63.34574080016687]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
LaMDは、BAIR、Landscape、NATOPS、MUG、CATER-GENなど、さまざまなベンチマークデータセットで高品質なビデオを生成する。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。