論文の概要: LongDiff: Training-Free Long Video Generation in One Go
- arxiv url: http://arxiv.org/abs/2503.18150v1
- Date: Sun, 23 Mar 2025 17:34:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:25.891652
- Title: LongDiff: Training-Free Long Video Generation in One Go
- Title(参考訳): LongDiff: トレーニングなしの長時間ビデオ生成を1回にまとめる
- Authors: Zhuoling Li, Hossein Rahmani, Qiuhong Ke, Jun Liu,
- Abstract要約: LongDiff は位置マッピング (PM) と Informative Frame Selection (IFS) で構成されるトレーニング不要の手法である。
提案手法は,時間的位置の曖昧さと情報の希薄化という,映像生成の短期的一般化を妨げる2つの重要な課題に対処する。
提案手法は,市販ビデオ拡散モデルの可能性を解き明かし,高品質な長編ビデオ生成を実現する。
- 参考スコア(独自算出の注目度): 27.38597403230757
- License:
- Abstract: Video diffusion models have recently achieved remarkable results in video generation. Despite their encouraging performance, most of these models are mainly designed and trained for short video generation, leading to challenges in maintaining temporal consistency and visual details in long video generation. In this paper, we propose LongDiff, a novel training-free method consisting of carefully designed components \ -- Position Mapping (PM) and Informative Frame Selection (IFS) \ -- to tackle two key challenges that hinder short-to-long video generation generalization: temporal position ambiguity and information dilution. Our LongDiff unlocks the potential of off-the-shelf video diffusion models to achieve high-quality long video generation in one go. Extensive experiments demonstrate the efficacy of our method.
- Abstract(参考訳): 映像拡散モデルは近年,映像生成において顕著な成果を上げている。
これらのモデルは主に短いビデオ生成のために設計および訓練されており、時間的一貫性と長時間のビデオ生成における視覚的詳細を維持する上での課題に繋がる。
本稿では,短時間のビデオ生成の一般化を妨げる2つの重要な課題である時間的位置の曖昧さと情報の希薄化に対処するため,慎重に設計したコンポーネント \ -- 位置マッピング (PM) と Informative Frame Selection (IFS) の2つからなる新しいトレーニングフリー手法であるLongDiffを提案する。
私たちのLongDiffは、市販のビデオ拡散モデルの可能性を解き放ち、高品質なビデオ生成を1回で実現します。
大規模な実験により,本手法の有効性が示された。
関連論文リスト
- VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling [43.485687038460895]
マルチモーダル大言語モデル(MLLM)における長文ビデオモデリングの重要性
本稿では,モデルアーキテクチャ,トレーニングデータ,トレーニング戦略,評価ベンチマークといった側面からこの問題に対処することを目的とする。
我々はVideoChat-Flashという強力なビデオMLLMを構築し、メインストリームのビデオベンチマークとショートビデオベンチマークの両方で主要なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-31T18:01:23Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - LVD-2M: A Long-take Video Dataset with Temporally Dense Captions [68.88624389174026]
高品質なロングテイクビデオを選択し、時間的に密度の高いキャプションを生成するためのパイプラインを新たに導入する。
具体的には、シーンカット、ダイナミック度、セマンティックレベルの品質を含む映像品質を定量的に評価する指標のセットを定義する。
LVD-2Mは,200万本のビデオからなり,それぞれ10秒以上をカバーし,時間的に密度の高いキャプションを付加する。
論文 参考訳(メタデータ) (2024-10-14T17:59:56Z) - FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention [57.651429116402554]
本稿では、一貫した長ビデオ生成のための既存の短ビデオ拡散モデルを拡張するための、単純で訓練のないアプローチについて検討する。
短いビデオ拡散モデルを直接適用することで、ビデオの品質が著しく低下することを発見した。
そこで本研究では,長い映像の特徴の周波数分布のバランスをとるために,FreeLongという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T11:52:07Z) - Anchored Diffusion for Video Face Reenactment [17.343307538702238]
比較的長くシームレスなビデオを合成するための新しい手法であるAnchored Diffusionを紹介する。
我々は、ランダムな非一様時間間隔でビデオシーケンスでモデルを訓練し、外部ガイダンスを介して時間情報を組み込む。
推論の際には、トランスフォーマーアーキテクチャを利用して拡散プロセスを修正し、共通のフレームに固定された一様でないシーケンスのバッチを生成する。
論文 参考訳(メタデータ) (2024-07-21T13:14:17Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。