論文の概要: Multi-sentence Video Grounding for Long Video Generation
- arxiv url: http://arxiv.org/abs/2407.13219v1
- Date: Thu, 18 Jul 2024 07:05:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 16:32:17.783521
- Title: Multi-sentence Video Grounding for Long Video Generation
- Title(参考訳): 長時間映像生成のためのマルチセンス映像グラウンドイング
- Authors: Wei Feng, Xin Wang, Hong Chen, Zeyang Zhang, Wenwu Zhu,
- Abstract要約: 長大映像生成のための多文ビデオグラウンドの勇敢で新しいアイデアを提案する。
提案手法は,画像・ビデオ編集,ビデオモーフィング,パーソナライズド生成,ビデオグラウンドニングの発達を,長いビデオ生成にシームレスに拡張する。
- 参考スコア(独自算出の注目度): 46.363084926441466
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video generation has witnessed great success recently, but their application in generating long videos still remains challenging due to the difficulty in maintaining the temporal consistency of generated videos and the high memory cost during generation. To tackle the problems, in this paper, we propose a brave and new idea of Multi-sentence Video Grounding for Long Video Generation, connecting the massive video moment retrieval to the video generation task for the first time, providing a new paradigm for long video generation. The method of our work can be summarized as three steps: (i) We design sequential scene text prompts as the queries for video grounding, utilizing the massive video moment retrieval to search for video moment segments that meet the text requirements in the video database. (ii) Based on the source frames of retrieved video moment segments, we adopt video editing methods to create new video content while preserving the temporal consistency of the retrieved video. Since the editing can be conducted segment by segment, and even frame by frame, it largely reduces the memory cost. (iii) We also attempt video morphing and personalized generation methods to improve the subject consistency of long video generation, providing ablation experimental results for the subtasks of long video generation. Our approach seamlessly extends the development in image/video editing, video morphing and personalized generation, and video grounding to the long video generation, offering effective solutions for generating long videos at low memory cost.
- Abstract(参考訳): ビデオ生成は近年大きな成功を収めているが、生成したビデオの時間的一貫性の維持と生成時の高メモリコストの維持が困難であることから、長大なビデオ生成への応用は依然として困難である。
この問題に対処するため,本稿では,大規模な映像モーメント検索をビデオ生成タスクに初めて接続し,長大な映像生成のための新しいパラダイムを提供する,多文ビデオグラウンドディングの勇敢で新しいアイデアを提案する。
私たちの作業の方法は3つのステップにまとめることができます。
i) 映像データベースのテキスト要求を満たす映像モーメントセグメントを検索するために, 大規模な映像モーメント検索を利用して, 連続的なシーンテキストプロンプトをビデオグラウンド検索のクエリとして設計する。
2)検索した映像の時間的一貫性を保ちつつ,新たな映像コンテンツを作成するための映像編集手法を,検索した映像のソースフレームに基づいて導入した。
編集はセグメント単位で行うことができ、フレーム単位で行うこともできるため、メモリコストを大幅に削減できる。
また,長大映像生成の主観的整合性を改善するために,映像のモーフィングとパーソナライズド生成手法を試み,長大映像生成のサブタスクに対するアブレーション実験結果を提供する。
提案手法は,画像・ビデオ編集,動画のモーフィング,パーソナライズ生成,ビデオグラウンド化などの開発をシームレスに拡張し,低メモリで長時間ビデオを生成するための効果的なソリューションを提供する。
関連論文リスト
- SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - LVD-2M: A Long-take Video Dataset with Temporally Dense Captions [68.88624389174026]
高品質なロングテイクビデオを選択し、時間的に密度の高いキャプションを生成するためのパイプラインを新たに導入する。
具体的には、シーンカット、ダイナミック度、セマンティックレベルの品質を含む映像品質を定量的に評価する指標のセットを定義する。
LVD-2Mは,200万本のビデオからなり,それぞれ10秒以上をカバーし,時間的に密度の高いキャプションを付加する。
論文 参考訳(メタデータ) (2024-10-14T17:59:56Z) - FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention [57.651429116402554]
本稿では、一貫した長ビデオ生成のための既存の短ビデオ拡散モデルを拡張するための、単純で訓練のないアプローチについて検討する。
短いビデオ拡散モデルを直接適用することで、ビデオの品質が著しく低下することを発見した。
そこで本研究では,長い映像の特徴の周波数分布のバランスをとるために,FreeLongという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T11:52:07Z) - VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning [62.51232333352754]
VideoDirectorGPTは、一貫したマルチシーンビデオ生成のための新しいフレームワークである。
提案手法は,複数シーンのビデオ生成におけるレイアウトと移動制御を大幅に改善する。
論文 参考訳(メタデータ) (2023-09-26T17:36:26Z) - Gen-L-Video: Multi-Text to Long Video Generation via Temporal
Co-Denoising [43.35391175319815]
本研究では,複数テキスト条件付き長編ビデオの生成と編集にテキスト駆動能力を拡張する可能性について検討する。
我々は,市販のビデオ拡散モデルの拡張が可能なGen-L-Videoという新しいパラダイムを導入する。
実験結果から,本手法は映像拡散モデルの生成・編集能力を著しく拡張することが明らかとなった。
論文 参考訳(メタデータ) (2023-05-29T17:38:18Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。