論文の概要: Mode Seeking meets Mean Seeking for Fast Long Video Generation
- arxiv url: http://arxiv.org/abs/2602.24289v1
- Date: Fri, 27 Feb 2026 18:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.579146
- Title: Mode Seeking meets Mean Seeking for Fast Long Video Generation
- Title(参考訳): モデムシーキングは、高速ビデオ生成のための平均的なシーキングと出会う
- Authors: Shengqu Cai, Weili Nie, Chao Liu, Julius Berner, Lvmin Zhang, Nanye Ma, Hansheng Chen, Maneesh Agrawala, Leonidas Guibas, Gordon Wetzstein, Arash Vahdat,
- Abstract要約: ビデオ生成を数秒から数分にスケールすることは、重大なボトルネックに直面している。
そこで本研究では,モードシーキングが平均シーキングに適合する訓練パラダイムを提案する。
本手法は局所的なシャープネス, 動き, 長距離一貫性を両立させることにより, 比重-水平ギャップを効果的に解消する。
- 参考スコア(独自算出の注目度): 79.62764340469
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Scaling video generation from seconds to minutes faces a critical bottleneck: while short-video data is abundant and high-fidelity, coherent long-form data is scarce and limited to narrow domains. To address this, we propose a training paradigm where Mode Seeking meets Mean Seeking, decoupling local fidelity from long-term coherence based on a unified representation via a Decoupled Diffusion Transformer. Our approach utilizes a global Flow Matching head trained via supervised learning on long videos to capture narrative structure, while simultaneously employing a local Distribution Matching head that aligns sliding windows to a frozen short-video teacher via a mode-seeking reverse-KL divergence. This strategy enables the synthesis of minute-scale videos that learns long-range coherence and motions from limited long videos via supervised flow matching, while inheriting local realism by aligning every sliding-window segment of the student to a frozen short-video teacher, resulting in a few-step fast long video generator. Evaluations show that our method effectively closes the fidelity-horizon gap by jointly improving local sharpness, motion and long-range consistency. Project website: https://primecai.github.io/mmm/.
- Abstract(参考訳): ビデオ生成を数秒から数分にスケールすることは、重大なボトルネックに直面している。短いビデオデータは豊富で高忠実だが、コヒーレントなロングフォームデータは乏しく、狭いドメインに限定されている。
そこで本研究では,モーメント・シーキングが平均的シーキングに合致する学習パラダイムを提案し,デカップリング拡散変換器を経由した統一表現に基づいて,局所的忠実度を長期的コヒーレンスから分離する。
提案手法では,長編ビデオの教師あり学習により訓練されたグローバルフローマッチングヘッドを用いて物語構造を捉えつつ,モード探索逆KL分岐によりスライドウインドウを凍結ショートビデオ教師に整列させるローカル分布マッチングヘッドを用いる。
この戦略により、教師付きフローマッチングにより限られた長ビデオから長距離コヒーレンスと動きを学習する微視的ビデオの合成が可能となり、学生のスライドウインドウセグメントを凍結した短ビデオ教師に整列させることで、局所的リアリズムを継承し、数ステップの高速な長ビデオ生成が可能となる。
提案手法は局所的なシャープネス,運動,長距離の一貫性を両立させることにより,フィリティと水平のギャップを効果的に塞ぐことを示す。
プロジェクトウェブサイト:https://primecai.github.io/mmm/。
関連論文リスト
- MotionStream: Real-Time Video Generation with Interactive Motion Controls [60.403597895657505]
単一GPU上で最大29FPSのストリーミング生成が可能なサブ秒レイテンシを実現するMotionStreamを提案する。
提案手法は,グローバルなテキストプロンプトとローカルなモーションガイダンスに準拠する高品質なビデオを生成するが,リアルタイムでは推論を行わないモーションコントロールによるテキスト・ツー・ビデオモデルの拡張から始まる。
我々のモデルでは、動きの追従と映像の質を2桁高速化し、無限長のストリーミングを可能にする。
論文 参考訳(メタデータ) (2025-11-03T06:37:53Z) - FreeLong++: Training-Free Long Video Generation via Multi-band SpectralFusion [24.48220892418698]
FreeLongは、Denoisingプロセス中の長いビデオ機能の頻度分布のバランスをとるために設計された、トレーニング不要のフレームワークである。
FreeLongは、全ビデオの全体的意味をキャプチャするグローバルな低周波特徴と、短い時間窓から抽出された局所的な高周波特徴をブレンドすることで、これを実現している。
FreeLong++はFreeLongを複数の注意枝を持つマルチブランチアーキテクチャに拡張し、それぞれが異なる時間スケールで動作する。
論文 参考訳(メタデータ) (2025-06-30T18:11:21Z) - LongDWM: Cross-Granularity Distillation for Building a Long-Term Driving World Model [22.92353994818742]
ドライビングワールドモデルは、現在の状態と行動の状態に基づいて、ビデオ生成によって未来をシミュレートするために使用される。
最近の研究は、ディフュージョントランスフォーマー(DiT)を駆動世界モデルのバックボーンとして利用し、学習の柔軟性を向上させる。
我々は、シンプルで効果的な長期運転世界モデルを構築するためのソリューションをいくつか提案する。
論文 参考訳(メタデータ) (2025-06-02T11:19:23Z) - Multi-Scale Contrastive Learning for Video Temporal Grounding [42.180296672043404]
自然言語クエリに関連する映像モーメントをローカライズする時間的グラウンドリングは、視覚言語学習とビデオ理解の中核的な問題である。
本稿ではビデオモーメント間の有能な意味を捉えるための対照的な学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-10T03:34:56Z) - SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation [153.46240555355408]
SlowFast-VGenはアクション駆動長ビデオ生成のための新しいデュアルスピード学習システムである。
本稿では,世界ダイナミクスのスローラーニングのための条件付きビデオ拡散モデルを提案する。
本研究では,内在学習ループを外在学習ループにシームレスに統合する低速学習ループアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:55:52Z) - FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention [57.651429116402554]
本稿では、一貫した長ビデオ生成のための既存の短ビデオ拡散モデルを拡張するための、単純で訓練のないアプローチについて検討する。
短いビデオ拡散モデルを直接適用することで、ビデオの品質が著しく低下することを発見した。
そこで本研究では,長い映像の特徴の周波数分布のバランスをとるために,FreeLongという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T11:52:07Z) - Anchored Diffusion for Video Face Reenactment [17.343307538702238]
比較的長くシームレスなビデオを合成するための新しい手法であるAnchored Diffusionを紹介する。
我々は、ランダムな非一様時間間隔でビデオシーケンスでモデルを訓練し、外部ガイダンスを介して時間情報を組み込む。
推論の際には、トランスフォーマーアーキテクチャを利用して拡散プロセスを修正し、共通のフレームに固定された一様でないシーケンスのバッチを生成する。
論文 参考訳(メタデータ) (2024-07-21T13:14:17Z) - Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for
Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。
このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文 参考訳(メタデータ) (2023-09-20T18:13:32Z) - Long Short-Term Relation Networks for Video Action Detection [155.13392337831166]
本稿では,Long Short-Term Relation Networks (LSTR)について述べる。
LSTRは、ビデオアクション検出のための拡張機能と関連して集約し、伝播する。
4つのベンチマークデータセットで大規模な実験を行う。
論文 参考訳(メタデータ) (2020-03-31T10:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。