論文の概要: MotionStream: Real-Time Video Generation with Interactive Motion Controls
- arxiv url: http://arxiv.org/abs/2511.01266v1
- Date: Mon, 03 Nov 2025 06:37:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.139822
- Title: MotionStream: Real-Time Video Generation with Interactive Motion Controls
- Title(参考訳): MotionStream:インタラクティブモーションコントロールによるリアルタイムビデオ生成
- Authors: Joonghyuk Shin, Zhengqi Li, Richard Zhang, Jun-Yan Zhu, Jaesik Park, Eli Schechtman, Xun Huang,
- Abstract要約: 単一GPU上で最大29FPSのストリーミング生成が可能なサブ秒レイテンシを実現するMotionStreamを提案する。
提案手法は,グローバルなテキストプロンプトとローカルなモーションガイダンスに準拠する高品質なビデオを生成するが,リアルタイムでは推論を行わないモーションコントロールによるテキスト・ツー・ビデオモデルの拡張から始まる。
我々のモデルでは、動きの追従と映像の質を2桁高速化し、無限長のストリーミングを可能にする。
- 参考スコア(独自算出の注目度): 60.403597895657505
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current motion-conditioned video generation methods suffer from prohibitive latency (minutes per video) and non-causal processing that prevents real-time interaction. We present MotionStream, enabling sub-second latency with up to 29 FPS streaming generation on a single GPU. Our approach begins by augmenting a text-to-video model with motion control, which generates high-quality videos that adhere to the global text prompt and local motion guidance, but does not perform inference on the fly. As such, we distill this bidirectional teacher into a causal student through Self Forcing with Distribution Matching Distillation, enabling real-time streaming inference. Several key challenges arise when generating videos of long, potentially infinite time-horizons: (1) bridging the domain gap from training on finite length and extrapolating to infinite horizons, (2) sustaining high quality by preventing error accumulation, and (3) maintaining fast inference, without incurring growth in computational cost due to increasing context windows. A key to our approach is introducing carefully designed sliding-window causal attention, combined with attention sinks. By incorporating self-rollout with attention sinks and KV cache rolling during training, we properly simulate inference-time extrapolations with a fixed context window, enabling constant-speed generation of arbitrarily long videos. Our models achieve state-of-the-art results in motion following and video quality while being two orders of magnitude faster, uniquely enabling infinite-length streaming. With MotionStream, users can paint trajectories, control cameras, or transfer motion, and see results unfold in real-time, delivering a truly interactive experience.
- Abstract(参考訳): 現在のモーションコンディショニングビデオ生成手法は、リアルタイムのインタラクションを阻止する禁断のレイテンシ(ビデオ毎分)と非因果処理に悩まされている。
単一GPU上で最大29FPSのストリーミング生成が可能なサブ秒レイテンシを実現するMotionStreamを提案する。
提案手法は,グローバルなテキストプロンプトとローカルなモーションガイダンスに準拠する高品質な動画を生成するが,リアルタイムでは推論を行わないモーションコントロールによるテキスト・ツー・ビデオモデルの拡張から始まる。
そこで我々は,この双方向教師を,分散マッチング蒸留による自己強制で因果学生に蒸留し,リアルタイムのストリーミング推論を可能にする。
長い、潜在的に無限の時間ホライズンのビデオを生成する際には、(1)有限長のトレーニングから無限の地平線への外挿までドメインギャップを埋めること、(2)エラーの蓄積を防止して高品質を維持すること、(3)コンテクストウィンドウの増加による計算コストの増加を伴わずに高速な推論を維持することなど、いくつかの重要な課題が発生する。
我々のアプローチの鍵は、慎重に設計されたスライドウインドウの因果的注意と、注意シンクの導入である。
トレーニング中の自己ロールアウトとアテンションシンクとKVキャッシュローリングを組み込むことで、固定されたコンテキストウインドウで推論時間外挿を適切にシミュレートし、任意長ビデオの一定速度生成を可能にする。
我々のモデルでは、動きの追従と映像の質を2桁高速化し、無限長のストリーミングを可能にする。
MotionStreamを使えば、ユーザーはトラジェクトリーをペイントしたり、カメラをコントロールしたり、動きを転送したりできる。
関連論文リスト
- Rolling Forcing: Autoregressive Long Video Diffusion in Real Time [86.40480237741609]
Rolling Forcingは、エラーの最小限の蓄積で長いビデオをストリーミングできる、新しいビデオ生成技術である。
転がり強制力には3つの新しい設計が伴う。第一に、エラー伝播を加速する個別のフレームを反復的にサンプリングする代わりに、共同演示方式を設計する。
第2に,アテンションシンク機構を長軸ストリームビデオ生成タスクに導入し,初期フレームのキー値状態をグローバルなコンテキストアンカーとして保持する。
第3に,大半が拡張された遮音窓上での無段蒸留を可能にする効率的な訓練アルゴリズムを設計する。
論文 参考訳(メタデータ) (2025-09-29T17:57:14Z) - Learning Streaming Video Representation via Multitask Training [38.83730146750222]
オフラインの動画理解とは異なり、ストリーミングビデオ理解にはフレーム単位でビデオストリームを処理し、過去の情報を保存し、低レイテンシの決定を行う能力が必要である。
本稿では,事前学習した視覚変換器に因果的注意を組み込むことにより,StreamFormerと呼ばれる新しいストリーミングビデオバックボーンを開発する。
オンラインアクション検出、オンラインビデオインスタンスセグメンテーション、およびビデオ質問応答に関する広範な実験を行う。
論文 参考訳(メタデータ) (2025-04-28T17:59:54Z) - StreamMind: Unlocking Full Frame Rate Streaming Video Dialogue through Event-Gated Cognition [20.608124640950276]
超FPSストリーミングビデオ処理を実現するビデオLLMフレームワークStreamMind(A100では100fps)を紹介する。
我々は「イベント付きLLM呼び出し」という新たな認知認知時間間パラダイムを提案する。
Ego4D と SoccerNet ストリーミングタスクの実験は、標準的なオフラインベンチマークと同様に、モデル能力とリアルタイム効率の両方における最先端のパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-03-08T13:44:38Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - Real-time Streaming Video Denoising with Bidirectional Buffers [48.57108807146537]
リアルタイムDenoisingアルゴリズムは、通常、ビデオストリームの撮影と送信にかかわるノイズを取り除くために、ユーザーデバイスに採用されている。
最近のマルチアウトプット推論は、双方向の時間的特徴を並列または繰り返しのフレームワークで伝達する。
本研究では,過去と未来の両方の時間的受容場を持つストリーミングビデオに対して,高忠実度リアルタイムデノナイズを実現するための双方向ストリーミングビデオデノナイズフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-14T14:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。