論文の概要: EditBoard: Towards A Comprehensive Evaluation Benchmark for Text-based Video Editing Models
- arxiv url: http://arxiv.org/abs/2409.09668v1
- Date: Sun, 15 Sep 2024 08:43:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 19:48:24.052038
- Title: EditBoard: Towards A Comprehensive Evaluation Benchmark for Text-based Video Editing Models
- Title(参考訳): EditBoard:テキストベースのビデオ編集モデルの総合的評価ベンチマークを目指して
- Authors: Yupeng Chen, Penglin Chen, Xiaoyu Zhang, Yixian Huang, Qian Xie,
- Abstract要約: テキストベースのビデオ編集は有望な分野として現れ、テキストプロンプトに基づいたビデオの正確な修正を可能にしている。
既存の評価は限定的で一貫性がなく、通常、全体的なパフォーマンスを単一のスコアで要約する。
テキストベースのビデオ編集モデルの総合評価ベンチマークであるEditBoardを提案する。
- 参考スコア(独自算出の注目度): 16.045012576543474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of diffusion models has significantly advanced AI-generated content (AIGC), particularly in Text-to-Image (T2I) and Text-to-Video (T2V) generation. Text-based video editing, leveraging these generative capabilities, has emerged as a promising field, enabling precise modifications to videos based on text prompts. Despite the proliferation of innovative video editing models, there is a conspicuous lack of comprehensive evaluation benchmarks that holistically assess these models' performance across various dimensions. Existing evaluations are limited and inconsistent, typically summarizing overall performance with a single score, which obscures models' effectiveness on individual editing tasks. To address this gap, we propose EditBoard, the first comprehensive evaluation benchmark for text-based video editing models. EditBoard encompasses nine automatic metrics across four dimensions, evaluating models on four task categories and introducing three new metrics to assess fidelity. This task-oriented benchmark facilitates objective evaluation by detailing model performance and providing insights into each model's strengths and weaknesses. By open-sourcing EditBoard, we aim to standardize evaluation and advance the development of robust video editing models.
- Abstract(参考訳): 拡散モデルの急速な開発は、特にテキスト・トゥ・イメージ(T2I)とテキスト・トゥ・ビデオ(T2V)生成において、AIGC(AIGC)が著しく進歩している。
これらの生成機能を活用するテキストベースのビデオ編集は、テキストプロンプトに基づくビデオの正確な修正を可能にする、有望な分野として登場した。
革新的なビデオ編集モデルの普及にもかかわらず、これらのモデルの性能を様々な次元にわたって総合的に評価する総合的な評価ベンチマークの欠如が顕著である。
既存の評価は限定的で一貫性がなく、通常、全体のパフォーマンスを単一のスコアで要約する。
このギャップに対処するため,テキストベースのビデオ編集モデルの総合評価ベンチマークであるEditBoardを提案する。
EditBoardには、4つのディメンションにまたがる9つの自動メトリクスが含まれ、4つのタスクカテゴリのモデルを評価し、3つの新しいメトリクスを導入して忠実さを評価する。
このタスク指向ベンチマークは、モデルパフォーマンスを詳述し、各モデルの強みと弱みに関する洞察を提供することにより、客観的評価を促進する。
EditBoardをオープンソース化することで、評価を標準化し、ロバストなビデオ編集モデルの開発を進めることを目指している。
関連論文リスト
- VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement [63.4357918830628]
VideoRepairは、モデルに依存しない、トレーニングなしのビデオリファインメントフレームワークである。
微粒なテキストビデオの誤りを特定し、明示的な空間的およびテキスト的フィードバックを生成する。
VideoRepairは、テキストとビデオのアライメントの指標で、最近のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2024-11-22T18:31:47Z) - VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [111.5892290894904]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。
我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。
VBench++は、テキスト・トゥ・ビデオと画像・トゥ・ビデオの評価をサポートする。
論文 参考訳(メタデータ) (2024-11-20T17:54:41Z) - Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - E-Bench: Subjective-Aligned Benchmark Suite for Text-Driven Video Editing Quality Assessment [6.627422081288281]
E-Benchはテキスト駆動のビデオ編集の評価に適したベンチマークスイートである。
ビデオ編集のためのビデオ品質アセスメント(VQA)データベースであるE-Bench DBが含まれている。
E-Bench QAは、テキストビデオアライメントと、ソースと編集されたビデオ間の関連モデリングに焦点を当てている。
論文 参考訳(メタデータ) (2024-08-21T09:49:32Z) - Learning Action and Reasoning-Centric Image Editing from Videos and Simulations [45.637947364341436]
AURORAデータセット(AURORA data)は、ビデオやシミュレーションエンジンから人間に注釈を付け、キュレートされた高品質なトレーニングデータの集合である。
AURORA-finetuned model on a new expert-curated benchmark across 8 various editing task。
我々のモデルは従来の編集モデルよりもはるかに優れており、人間のレーティングによって判断される。
論文 参考訳(メタデータ) (2024-07-03T19:36:33Z) - Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。
新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。
本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文 参考訳(メタデータ) (2024-01-15T15:42:39Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - EditEval: An Instruction-Based Benchmark for Text Improvements [73.5918084416016]
編集機能の自動評価のためのインストラクションベース、ベンチマーク、評価スイートであるEditEvalを提示する。
InstructGPTとPEERが最良であることを示す事前学習モデルをいくつか評価するが,ほとんどのベースラインは教師付きSOTA以下である。
我々の分析は、タスクの編集によく使われるメトリクスが必ずしも相関しているとは限らないことを示し、最高の性能を持つプロンプトに対する最適化は、必ずしも異なるモデルに対して強い堅牢性を持つとは限らないことを示唆している。
論文 参考訳(メタデータ) (2022-09-27T12:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。