論文の概要: FiVE: A Fine-grained Video Editing Benchmark for Evaluating Emerging Diffusion and Rectified Flow Models
- arxiv url: http://arxiv.org/abs/2503.13684v1
- Date: Mon, 17 Mar 2025 19:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:16:23.875319
- Title: FiVE: A Fine-grained Video Editing Benchmark for Evaluating Emerging Diffusion and Rectified Flow Models
- Title(参考訳): FiVE: 拡大拡散と整流モデル評価のためのきめ細かいビデオ編集ベンチマーク
- Authors: Minghan Li, Chenxi Xie, Yichen Wu, Lei Zhang, Mengyu Wang,
- Abstract要約: 本稿では,新たな拡散モデルと修正フローモデルを評価するための微細ビデオ編集ベンチマークFiVEを紹介する。
私たちのベンチマークには、74の現実世界のビデオと26の生成されたビデオが含まれており、6つのきめ細かい編集タイプ、420のオブジェクトレベルの編集プロンプトペア、およびそれに対応するマスクが含まれている。
本研究では, 背景保存, テキスト・ビデオの類似性, 時間的一貫性, 映像品質, ランタイムの5つの指標を用いて, 拡散に基づく5つの手法と2つのRFベースの編集手法をFiVEベンチマークで評価した。
- 参考スコア(独自算出の注目度): 17.788970036356297
- License:
- Abstract: Numerous text-to-video (T2V) editing methods have emerged recently, but the lack of a standardized benchmark for fair evaluation has led to inconsistent claims and an inability to assess model sensitivity to hyperparameters. Fine-grained video editing is crucial for enabling precise, object-level modifications while maintaining context and temporal consistency. To address this, we introduce FiVE, a Fine-grained Video Editing Benchmark for evaluating emerging diffusion and rectified flow models. Our benchmark includes 74 real-world videos and 26 generated videos, featuring 6 fine-grained editing types, 420 object-level editing prompt pairs, and their corresponding masks. Additionally, we adapt the latest rectified flow (RF) T2V generation models, Pyramid-Flow and Wan2.1, by introducing FlowEdit, resulting in training-free and inversion-free video editing models Pyramid-Edit and Wan-Edit. We evaluate five diffusion-based and two RF-based editing methods on our FiVE benchmark using 15 metrics, covering background preservation, text-video similarity, temporal consistency, video quality, and runtime. To further enhance object-level evaluation, we introduce FiVE-Acc, a novel metric leveraging Vision-Language Models (VLMs) to assess the success of fine-grained video editing. Experimental results demonstrate that RF-based editing significantly outperforms diffusion-based methods, with Wan-Edit achieving the best overall performance and exhibiting the least sensitivity to hyperparameters. More video demo available on the anonymous website: https://sites.google.com/view/five-benchmark
- Abstract(参考訳): 多数のテキスト・トゥ・ビデオ(T2V)編集手法が最近出現しているが、公正な評価のための標準ベンチマークが欠如しているため、不整合なクレームとハイパーパラメータに対するモデルの感度を評価することができない。
微粒なビデオ編集は、コンテキストと時間的一貫性を維持しながら、正確なオブジェクトレベルの修正を可能にするために不可欠である。
そこで我々は,新たな拡散モデルと修正フローモデルを評価するための細粒度ビデオ編集ベンチマークFiVEを紹介する。
私たちのベンチマークには、74の現実世界のビデオと26の生成されたビデオが含まれており、6つのきめ細かい編集タイプ、420のオブジェクトレベルの編集プロンプトペア、およびそれに対応するマスクが含まれている。
さらに、FlowEditを導入することで、最新の修正フロー(RF)T2V生成モデルであるPraamid-FlowとWan2.1を適用し、トレーニング不要でインバージョンフリーなビデオ編集モデルであるPraamid-EditとWan-Editを実現する。
本研究では, 背景保存, テキスト・ビデオの類似性, 時間的一貫性, 映像品質, ランタイムの5つの指標を用いて, 拡散に基づく5つの手法と2つのRFベースの編集手法をFiVEベンチマークで評価した。
オブジェクトレベルの評価をさらに高めるために,視覚言語モデル(VLM)を利用した細粒度ビデオ編集の成功評価手法であるFiVE-Accを導入する。
実験の結果,RFベースの編集は拡散法よりも有意に優れており,Wan-Editは全体的な性能を最高のものにし,ハイパーパラメータに対する感度の低下を示すことがわかった。
詳細は匿名ウェブサイトで見ることができる。 https://sites.google.com/view/five-benchmark
関連論文リスト
- Taming Rectified Flow for Inversion and Editing [57.3742655030493]
FLUXやOpenSoraのような定流拡散変換器は、画像生成やビデオ生成の分野で優れた性能を発揮している。
その堅牢な生成能力にもかかわらず、これらのモデルは不正確さに悩まされることが多い。
本研究では,修正流の逆流過程における誤差を軽減し,インバージョン精度を効果的に向上する訓練自由サンプリング器RF-rを提案する。
論文 参考訳(メタデータ) (2024-11-07T14:29:02Z) - EditBoard: Towards a Comprehensive Evaluation Benchmark for Text-Based Video Editing Models [16.045012576543474]
テキストベースのビデオ編集は有望な分野として現れ、テキストプロンプトに基づいたビデオの正確な修正を可能にしている。
既存の評価は限定的で一貫性がなく、通常、全体的なパフォーマンスを単一のスコアで要約する。
テキストベースのビデオ編集モデルの総合評価ベンチマークであるEditBoardを提案する。
論文 参考訳(メタデータ) (2024-09-15T08:43:18Z) - VE-Bench: Subjective-Aligned Benchmark Suite for Text-Driven Video Editing Quality Assessment [6.627422081288281]
本稿では,テキスト駆動ビデオ編集の評価に適したベンチマークスイートであるVE-Benchを紹介する。
このスイートには、ビデオ編集のためのビデオ品質アセスメント(VQA)データベースであるVE-Bench DBが含まれている。
VE-Bench QAは、テキストビデオアライメントと、ソースと編集されたビデオ間の関連モデリングに焦点を当てている。
論文 参考訳(メタデータ) (2024-08-21T09:49:32Z) - Beyond Raw Videos: Understanding Edited Videos with Large Multimodal Model [62.38322742493649]
我々は、編集カテゴリ、すなわちエフェクト、面白い、ミーム、ゲームをカバーするビデオVQAベンチマークを構築した。
オープンソースビデオのLMMのほとんどはベンチマークでは不十分であり、ソーシャルメディア上の編集されたショートビデオと通常の生ビデオの間に大きなドメインギャップがあることを示唆している。
LMMの一般化能力を向上させるため,Panda-70M/WebVid生ビデオとTikTok/CapCut編集ビデオの両方に基づいて,提案したベンチマークのトレーニングセットを収集した。
論文 参考訳(メタデータ) (2024-06-15T03:28:52Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - EffiVED:Efficient Video Editing via Text-instruction Diffusion Models [9.287394166165424]
EffiVEDは、命令誘導ビデオ編集をサポートする効率的な拡散ベースモデルである。
我々は、膨大な画像編集データセットとオープンワールドビデオを、EffiVEDをトレーニングするための高品質なデータセットに変換する。
論文 参考訳(メタデータ) (2024-03-18T08:42:08Z) - FastVideoEdit: Leveraging Consistency Models for Efficient Text-to-Video Editing [8.907836546058086]
既存のビデオ編集における画像生成モデルへのアプローチは、ワンショットの微調整、追加条件抽出、DDIMの逆変換といった時間を要する。
我々は、一貫性モデル(CM)にインスパイアされた効率的なゼロショットビデオ編集手法であるFastVideoEditを提案する。
本手法は,特別な分散スケジュールを用いて,ソース映像からターゲット映像への直接マッピングを可能にする。
論文 参考訳(メタデータ) (2024-03-10T17:12:01Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。