論文の概要: VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement
- arxiv url: http://arxiv.org/abs/2411.15115v1
- Date: Fri, 22 Nov 2024 18:31:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:04:42.728129
- Title: VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement
- Title(参考訳): VideoRepair: ミスアライメント評価とローカライズドリファインメントによるテキスト・ツー・ビデオ生成の改善
- Authors: Daeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal,
- Abstract要約: VideoRepairは、モデルに依存しない、トレーニングなしのビデオリファインメントフレームワークである。
微粒なテキストビデオの誤りを特定し、明示的な空間的およびテキスト的フィードバックを生成する。
VideoRepairは、テキストとビデオのアライメントの指標で、最近のベースラインを大幅に上回っている。
- 参考スコア(独自算出の注目度): 63.4357918830628
- License:
- Abstract: Recent text-to-video (T2V) diffusion models have demonstrated impressive generation capabilities across various domains. However, these models often generate videos that have misalignments with text prompts, especially when the prompts describe complex scenes with multiple objects and attributes. To address this, we introduce VideoRepair, a novel model-agnostic, training-free video refinement framework that automatically identifies fine-grained text-video misalignments and generates explicit spatial and textual feedback, enabling a T2V diffusion model to perform targeted, localized refinements. VideoRepair consists of four stages: In (1) video evaluation, we detect misalignments by generating fine-grained evaluation questions and answering those questions with MLLM. In (2) refinement planning, we identify accurately generated objects and then create localized prompts to refine other areas in the video. Next, in (3) region decomposition, we segment the correctly generated area using a combined grounding module. We regenerate the video by adjusting the misaligned regions while preserving the correct regions in (4) localized refinement. On two popular video generation benchmarks (EvalCrafter and T2V-CompBench), VideoRepair substantially outperforms recent baselines across various text-video alignment metrics. We provide a comprehensive analysis of VideoRepair components and qualitative examples.
- Abstract(参考訳): 最近のテキスト・ツー・ビデオ(T2V)拡散モデルでは、様々な領域にまたがる印象的な生成能力が示されている。
しかし、これらのモデルでは、特に複数のオブジェクトや属性を持つ複雑なシーンをプロンプトが記述する場合に、テキストプロンプトとミスアライメントを持つビデオを生成することが多い。
これを解決するために,ビデオレペア(VideoRepair)は,微粒なテキストビデオの誤認識を自動的に識別し,空間的およびテキスト的フィードバックを明示的に生成し,T2V拡散モデルがターゲットの局所的改善を行うことを可能にする,新しいモデルに依存しない,トレーニング不要なビデオリファインメントフレームワークである。
VideoRepairは,(1)ビデオ評価において,きめ細かい評価質問を生成し,それらの質問にMLLMで答えることで誤認識を検出する。
2)精細化計画では、正確に生成された物体を識別し、動画内の他の領域を精細化するための局所的なプロンプトを作成する。
次に、(3)領域分解において、結合接地モジュールを用いて正しく生成された領域を分割する。
ビデオの再生は、適切な領域を(4)局所的な精細化に保ちながら、不整合領域を調整して行う。
2つの人気ビデオ生成ベンチマーク(EvalCrafterとT2V-CompBench)において、VideoRepairは、さまざまなテキストビデオアライメントメトリクスで最新のベースラインを大幅に上回っている。
我々は、VideoRepairコンポーネントと定性的な例を包括的に分析する。
関連論文リスト
- VideoTetris: Towards Compositional Text-to-Video Generation [45.395598467837374]
VideoTetrisは、合成T2V生成を可能にするフレームワークである。
我々は, VideoTetrisがT2V生成において, 印象的な質的, 定量的な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-06-06T17:25:33Z) - RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [58.15403987979496]
本稿では,RACCooNを提案する。
ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。
提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文 参考訳(メタデータ) (2024-05-28T17:46:36Z) - Generative Video Diffusion for Unseen Cross-Domain Video Moment
Retrieval [58.17315970207874]
ビデオモーメント検索(VMR)では、複雑な視覚言語関係を捉えるために、微細なモーメントテキスト関連を正確にモデル化する必要がある。
既存の手法は、クロスドメインアプリケーションのためのソースとターゲットのドメインビデオの両方のジョイントトレーニングを利用する。
対象の文によって制御されるソースビデオのきめ細かい編集のための生成的ビデオ拡散について検討する。
論文 参考訳(メタデータ) (2024-01-24T09:45:40Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - MILES: Visual BERT Pre-training with Injected Language Semantics for
Video-text Retrieval [43.2299969152561]
ゼロショット・ファインチューン評価プロトコルを用いた4つのデータセットのテキスト・ビデオ検索手法
提案手法は,ゼロショットおよびファインチューン評価プロトコルを用いた4つのデータセット上でのテキスト・ビデオ検索における最先端手法よりも優れる。
論文 参考訳(メタデータ) (2022-04-26T16:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。