Fugu-MT 論文翻訳(概要): EditBoard: Towards A Comprehensive Evaluation Benchmark for Text-based Video Editing Models

論文の概要: EditBoard: Towards A Comprehensive Evaluation Benchmark for Text-based Video Editing Models

arxiv url: http://arxiv.org/abs/2409.09668v1
Date: Sun, 15 Sep 2024 08:43:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-17 19:48:24.052038
Title: EditBoard: Towards A Comprehensive Evaluation Benchmark for Text-based Video Editing Models
Title（参考訳）: EditBoard:テキストベースのビデオ編集モデルの総合的評価ベンチマークを目指して
Authors: Yupeng Chen, Penglin Chen, Xiaoyu Zhang, Yixian Huang, Qian Xie,
Abstract要約: テキストベースのビデオ編集は有望な分野として現れ、テキストプロンプトに基づいたビデオの正確な修正を可能にしている。既存の評価は限定的で一貫性がなく、通常、全体的なパフォーマンスを単一のスコアで要約する。テキストベースのビデオ編集モデルの総合評価ベンチマークであるEditBoardを提案する。
参考スコア（独自算出の注目度）: 16.045012576543474
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid development of diffusion models has significantly advanced AI-generated content (AIGC), particularly in Text-to-Image (T2I) and Text-to-Video (T2V) generation. Text-based video editing, leveraging these generative capabilities, has emerged as a promising field, enabling precise modifications to videos based on text prompts. Despite the proliferation of innovative video editing models, there is a conspicuous lack of comprehensive evaluation benchmarks that holistically assess these models' performance across various dimensions. Existing evaluations are limited and inconsistent, typically summarizing overall performance with a single score, which obscures models' effectiveness on individual editing tasks. To address this gap, we propose EditBoard, the first comprehensive evaluation benchmark for text-based video editing models. EditBoard encompasses nine automatic metrics across four dimensions, evaluating models on four task categories and introducing three new metrics to assess fidelity. This task-oriented benchmark facilitates objective evaluation by detailing model performance and providing insights into each model's strengths and weaknesses. By open-sourcing EditBoard, we aim to standardize evaluation and advance the development of robust video editing models.
Abstract（参考訳）: 拡散モデルの急速な開発は、特にテキスト・トゥ・イメージ(T2I)とテキスト・トゥ・ビデオ(T2V)生成において、AIGC(AIGC)が著しく進歩している。これらの生成機能を活用するテキストベースのビデオ編集は、テキストプロンプトに基づくビデオの正確な修正を可能にする、有望な分野として登場した。革新的なビデオ編集モデルの普及にもかかわらず、これらのモデルの性能を様々な次元にわたって総合的に評価する総合的な評価ベンチマークの欠如が顕著である。既存の評価は限定的で一貫性がなく、通常、全体のパフォーマンスを単一のスコアで要約する。このギャップに対処するため,テキストベースのビデオ編集モデルの総合評価ベンチマークであるEditBoardを提案する。 EditBoardには、4つのディメンションにまたがる9つの自動メトリクスが含まれ、4つのタスクカテゴリのモデルを評価し、3つの新しいメトリクスを導入して忠実さを評価する。このタスク指向ベンチマークは、モデルパフォーマンスを詳述し、各モデルの強みと弱みに関する洞察を提供することにより、客観的評価を促進する。 EditBoardをオープンソース化することで、評価を標準化し、ロバストなビデオ編集モデルの開発を進めることを目指している。

関連論文リスト

DualEdit: Dual Editing for Knowledge Updating in Vision-Language Models [26.762431651154607]
テキストと視覚の両方を各キー層で修正するエディタであるDualEditを提案する。我々は、複数のVLMバックボーンとベンチマークデータセットにわたるDualEditを評価し、最先端のVLM編集ベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-06-16T16:04:16Z)
TDVE-Assessor: Benchmarking and Evaluating the Quality of Text-Driven Video Editing with LMMs [54.44479359918971]
テキスト駆動ビデオ編集のための大規模ベンチマークデータセットであるTDVE-DBを紹介する。 TDVE-DBは8つの編集カテゴリにまたがる12の多様なモデルから生成される3,857の編集ビデオで構成されている。テキスト駆動ビデオ編集評価に特化して設計された新しいVQAモデルであるTDVE-Assessorを提案する。
論文参考訳（メタデータ） (2025-05-26T05:47:09Z)
DAPE: Dual-Stage Parameter-Efficient Fine-Tuning for Consistent Video Editing with Diffusion Models [1.972901110298768]
高品質で費用対効果の高い2段階パラメーター効率なビデオ編集のための微調整フレームワークであるDAPEを提案する。最初の段階では、生成したビデオの時間的一貫性を高めるための効率的なノルムチューニング法を設計する。第2ステージでは視覚的品質を改善するための視覚フレンドリなアダプタが導入されている。
論文参考訳（メタデータ） (2025-05-11T17:08:50Z)
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。 RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文参考訳（メタデータ） (2025-04-03T17:59:56Z)
FiVE: A Fine-grained Video Editing Benchmark for Evaluating Emerging Diffusion and Rectified Flow Models [17.788970036356297]
本稿では,新たな拡散モデルと修正フローモデルを評価するための微細ビデオ編集ベンチマークFiVEを紹介する。私たちのベンチマークには、74の現実世界のビデオと26の生成されたビデオが含まれており、6つのきめ細かい編集タイプ、420のオブジェクトレベルの編集プロンプトペア、およびそれに対応するマスクが含まれている。本研究では, 背景保存, テキスト・ビデオの類似性, 時間的一貫性, 映像品質, ランタイムの5つの指標を用いて, 拡散に基づく5つの手法と2つのRFベースの編集手法をFiVEベンチマークで評価した。
論文参考訳（メタデータ） (2025-03-17T19:47:41Z)
DreamOmni: Unified Image Generation and Editing [51.45871494724542]
本稿では,画像生成と編集の統一モデルであるDream Omniを紹介する。訓練のためにドリーム・オムニはT2I世代と下流のタスクを共同で訓練する。このコラボレーションは、編集性能を大幅に向上させる。
論文参考訳（メタデータ） (2024-12-22T17:17:28Z)
SPAgent: Adaptive Task Decomposition and Model Selection for General Video Generation and Editing [50.098005973600024]
セマンティック・プランニング・エージェント(SPAgent)を利用した新しい映像生成・編集システムを提案する。 SPAgentは、多様なユーザ意図と既存の生成モデルの有効利用の間のギャップを埋める。実験結果は、SPAgentが効果的にモデルをコーディネートしてビデオの生成や編集を行うことを示した。
論文参考訳（メタデータ） (2024-11-28T08:07:32Z)
VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement [63.4357918830628]
VideoRepairは、モデルに依存しない、トレーニングなしのビデオリファインメントフレームワークである。微粒なテキストビデオの誤りを特定し、明示的な空間的およびテキスト的フィードバックを生成する。 VideoRepairは、テキストとビデオのアライメントの指標で、最近のベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2024-11-22T18:31:47Z)
VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [111.5892290894904]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。 VBench++は、テキスト・トゥ・ビデオと画像・トゥ・ビデオの評価をサポートする。
論文参考訳（メタデータ） (2024-11-20T17:54:41Z)
Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文参考訳（メタデータ） (2024-10-16T09:42:29Z)
E-Bench: Subjective-Aligned Benchmark Suite for Text-Driven Video Editing Quality Assessment [6.627422081288281]
E-Benchはテキスト駆動のビデオ編集の評価に適したベンチマークスイートである。ビデオ編集のためのビデオ品質アセスメント(VQA)データベースであるE-Bench DBが含まれている。 E-Bench QAは、テキストビデオアライメントと、ソースと編集されたビデオ間の関連モデリングに焦点を当てている。
論文参考訳（メタデータ） (2024-08-21T09:49:32Z)
Learning Action and Reasoning-Centric Image Editing from Videos and Simulations [45.637947364341436]
AURORAデータセット(AURORA data)は、ビデオやシミュレーションエンジンから人間に注釈を付け、キュレートされた高品質なトレーニングデータの集合である。 AURORA-finetuned model on a new expert-curated benchmark across 8 various editing task。我々のモデルは従来の編集モデルよりもはるかに優れており、人間のレーティングによって判断される。
論文参考訳（メタデータ） (2024-07-03T19:36:33Z)
Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文参考訳（メタデータ） (2024-01-15T15:42:39Z)
EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文参考訳（メタデータ） (2023-10-17T17:50:46Z)
EditEval: An Instruction-Based Benchmark for Text Improvements [73.5918084416016]
編集機能の自動評価のためのインストラクションベース、ベンチマーク、評価スイートであるEditEvalを提示する。 InstructGPTとPEERが最良であることを示す事前学習モデルをいくつか評価するが,ほとんどのベースラインは教師付きSOTA以下である。我々の分析は、タスクの編集によく使われるメトリクスが必ずしも相関しているとは限らないことを示し、最高の性能を持つプロンプトに対する最適化は、必ずしも異なるモデルに対して強い堅牢性を持つとは限らないことを示唆している。
論文参考訳（メタデータ） (2022-09-27T12:26:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。