論文の概要: LongLive: Real-time Interactive Long Video Generation
- arxiv url: http://arxiv.org/abs/2509.22622v1
- Date: Fri, 26 Sep 2025 17:48:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.623019
- Title: LongLive: Real-time Interactive Long Video Generation
- Title(参考訳): LongLive:リアルタイムインタラクティブなロングビデオ生成
- Authors: Shuai Yang, Wei Huang, Ruihang Chu, Yicheng Xiao, Yuyang Zhao, Xianbang Wang, Muyang Li, Enze Xie, Yingcong Chen, Yao Lu, Song Han, Yukang Chen,
- Abstract要約: LongLiveはリアルタイムおよびインタラクティブなロングビデオ生成のためのフレームレベルの自動回帰フレームワークである。
LongLiveは1つのNVIDIA H100上で20.7 FPSを持続し、短いビデオと長いビデオの両方でVBenchで強力なパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 68.45945318075432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present LongLive, a frame-level autoregressive (AR) framework for real-time and interactive long video generation. Long video generation presents challenges in both efficiency and quality. Diffusion and Diffusion-Forcing models can produce high-quality videos but suffer from low efficiency due to bidirectional attention. Causal attention AR models support KV caching for faster inference, but often degrade in quality on long videos due to memory challenges during long-video training. In addition, beyond static prompt-based generation, interactive capabilities, such as streaming prompt inputs, are critical for dynamic content creation, enabling users to guide narratives in real time. This interactive requirement significantly increases complexity, especially in ensuring visual consistency and semantic coherence during prompt transitions. To address these challenges, LongLive adopts a causal, frame-level AR design that integrates a KV-recache mechanism that refreshes cached states with new prompts for smooth, adherent switches; streaming long tuning to enable long video training and to align training and inference (train-long-test-long); and short window attention paired with a frame-level attention sink, shorten as frame sink, preserving long-range consistency while enabling faster generation. With these key designs, LongLive fine-tunes a 1.3B-parameter short-clip model to minute-long generation in just 32 GPU-days. At inference, LongLive sustains 20.7 FPS on a single NVIDIA H100, achieves strong performance on VBench in both short and long videos. LongLive supports up to 240-second videos on a single H100 GPU. LongLive further supports INT8-quantized inference with only marginal quality loss.
- Abstract(参考訳): 本稿では,リアルタイムかつインタラクティブなロングビデオ生成のためのフレームレベル自動回帰(AR)フレームワークであるLongLiveを紹介する。
ロングビデオ生成は効率と品質の両方に課題をもたらす。
拡散・拡散強制モデルは高品質なビデオを生成することができるが、双方向の注意による効率の低下に悩まされる。
因果的注意 ARモデルは、高速な推論のためにKVキャッシュをサポートするが、長いビデオトレーニング中にメモリ上の問題により、しばしば品質が低下する。
さらに、静的なプロンプトベースの生成を超えて、ストリーミングプロンプト入力のようなインタラクティブな機能は、動的コンテンツ作成に不可欠であり、ユーザーはリアルタイムで物語をガイドすることができる。
このインタラクティブな要件は、特に即時遷移時の視覚的一貫性とセマンティックコヒーレンスの確保において、複雑さを著しく増大させる。
これらの課題に対処するため、LongLiveでは、キャッシュされた状態をリフレッシュするKV-recacheメカニズムを統合した因果的フレームレベルのAR設計を採用し、スムーズでアジェントなスイッチのための新しいプロンプト、長いビデオトレーニングを可能にしてトレーニングと推論を整列するためのストリーミングロングチューニング、フレームレベルのアテンションシンクと組み合わせたショートウィンドウアテンション、フレームシンクの短縮、より高速な生成を実現するとともに、長距離一貫性の維持などを実現している。
これらのキーデザインにより、LongLiveは1.3Bパラメートルのショートクリップモデルをわずか32GPU日で分長世代に微調整する。
推論では、LongLiveは1つのNVIDIA H100上で20.7 FPSを持続し、短いビデオと長いビデオの両方でVBench上で強力なパフォーマンスを達成する。
LongLiveは、1つのH100 GPU上で240秒の動画をサポートする。
LongLiveはさらにINT8量子化推論をサポートし、限界品質損失しかサポートしていない。
関連論文リスト
- FreeLong++: Training-Free Long Video Generation via Multi-band SpectralFusion [24.48220892418698]
FreeLongは、Denoisingプロセス中の長いビデオ機能の頻度分布のバランスをとるために設計された、トレーニング不要のフレームワークである。
FreeLongは、全ビデオの全体的意味をキャプチャするグローバルな低周波特徴と、短い時間窓から抽出された局所的な高周波特徴をブレンドすることで、これを実現している。
FreeLong++はFreeLongを複数の注意枝を持つマルチブランチアーキテクチャに拡張し、それぞれが異なる時間スケールで動作する。
論文 参考訳(メタデータ) (2025-06-30T18:11:21Z) - Flash-VStream: Efficient Real-Time Understanding for Long Video Streams [64.25549822010372]
Flash-VStreamは、非常に長いビデオを処理し、リアルタイムでユーザークエリに応答できるビデオ言語モデルである。
既存のモデルと比較して、Flash-VStreamは推論遅延を大幅に削減する。
論文 参考訳(メタデータ) (2025-06-30T13:17:49Z) - $\infty$-Video: A Training-Free Approach to Long Video Understanding via Continuous-Time Memory Consolidation [19.616624959353697]
$infty$-Videoは、連続時間長期メモリ(LTM)統合機構を通じて、任意に長いビデオを処理できる。
我々のフレームワークは、ビデオのコンテキストを効率的に処理し、追加のトレーニングを必要とせず、ビデオQフォーマーを増強する。
論文 参考訳(メタデータ) (2025-01-31T12:45:46Z) - VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling [43.485687038460895]
マルチモーダル大言語モデル(MLLM)における長文ビデオモデリングの重要性
本稿では,モデルアーキテクチャ,トレーニングデータ,トレーニング戦略,評価ベンチマークといった側面からこの問題に対処することを目的とする。
我々はVideoChat-Flashという強力なビデオMLLMを構築し、メインストリームのビデオベンチマークとショートビデオベンチマークの両方で主要なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-31T18:01:23Z) - RAIN: Real-time Animation of Infinite Video Stream [52.97171098038888]
RAINは、低レイテンシで、無限のビデオストリームをリアルタイムでアニメーションできるパイプラインソリューションである。
RAINは、より短いレイテンシと高速な速度でビデオフレームを生成すると同時に、拡張されたビデオストリームに対する長距離の注意を維持する。
RAINは、競合他社よりもはるかに優れた品質、正確性、一貫性で、リアルタイムにキャラクタをアニメーションすることができる。
論文 参考訳(メタデータ) (2024-12-27T07:13:15Z) - FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention [57.651429116402554]
本稿では、一貫した長ビデオ生成のための既存の短ビデオ拡散モデルを拡張するための、単純で訓練のないアプローチについて検討する。
短いビデオ拡散モデルを直接適用することで、ビデオの品質が著しく低下することを発見した。
そこで本研究では,長い映像の特徴の周波数分布のバランスをとるために,FreeLongという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T11:52:07Z) - CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video
Temporal Grounding [70.7882058229772]
本稿では,長時間ビデオの時間的グラウンドリング(VTG)の新たな課題に取り組む。
短いビデオと比較すると、長いビデオは需要が高いが探索は少ない。
本研究では,効率的なCarse-to-fiNEアライメントフレームワークであるCONEを提案する。
論文 参考訳(メタデータ) (2022-09-22T10:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。