論文の概要: VideoGen-Eval: Agent-based System for Video Generation Evaluation
- arxiv url: http://arxiv.org/abs/2503.23452v2
- Date: Sun, 27 Apr 2025 02:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 18:43:11.277664
- Title: VideoGen-Eval: Agent-based System for Video Generation Evaluation
- Title(参考訳): VideoGen-Eval:映像生成評価のためのエージェントベースシステム
- Authors: Yuhang Yang, Ke Fan, Shangkun Sun, Hongxiang Li, Ailing Zeng, FeiLin Han, Wei Zhai, Wei Liu, Yang Cao, Zheng-Jun Zha,
- Abstract要約: ビデオ生成は、最先端のモデルを評価するのに、既存の評価システムを不十分にしている。
本稿では,コンテンツ構造化,MLLMに基づくコンテンツ判断,時空間次元のパッチツールを統合したエージェント評価システムであるVideoGen-Evalを提案する。
我々は,既存の最先端モデルを評価するためのビデオ生成ベンチマークを導入し,評価システムの有効性を検証する。
- 参考スコア(独自算出の注目度): 54.662739174367836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of video generation has rendered existing evaluation systems inadequate for assessing state-of-the-art models, primarily due to simple prompts that cannot showcase the model's capabilities, fixed evaluation operators struggling with Out-of-Distribution (OOD) cases, and misalignment between computed metrics and human preferences. To bridge the gap, we propose VideoGen-Eval, an agent evaluation system that integrates LLM-based content structuring, MLLM-based content judgment, and patch tools designed for temporal-dense dimensions, to achieve a dynamic, flexible, and expandable video generation evaluation. Additionally, we introduce a video generation benchmark to evaluate existing cutting-edge models and verify the effectiveness of our evaluation system. It comprises 700 structured, content-rich prompts (both T2V and I2V) and over 12,000 videos generated by 20+ models, among them, 8 cutting-edge models are selected as quantitative evaluation for the agent and human. Extensive experiments validate that our proposed agent-based evaluation system demonstrates strong alignment with human preferences and reliably completes the evaluation, as well as the diversity and richness of the benchmark.
- Abstract(参考訳): ビデオ生成の急速な進歩により、既存の評価システムが最先端のモデルを評価するには不適当となった。主な原因は、モデルの能力を示すことができない単純なプロンプト、アウト・オブ・ディストリビューション(OOD)のケースに苦しむ固定評価演算子、計算されたメトリクスと人間の嗜好の不一致である。
このギャップを埋めるために,LLMベースのコンテンツ構造化,MLLMベースのコンテンツ判断,時間次元用に設計されたパッチツールを統合するエージェント評価システムであるVideoGen-Evalを提案し,動的でフレキシブルで拡張可能なビデオ生成評価を実現する。
さらに,既存の最先端モデルを評価するためのビデオ生成ベンチマークを導入し,評価システムの有効性を検証する。
700以上の構造化されたコンテンツリッチプロンプト(T2VとI2Vの両方)と20以上のモデルで生成された12,000以上のビデオで構成され、エージェントと人間の定量的評価として8つの最先端モデルが選択される。
提案するエージェントベース評価システムは,ヒトの嗜好と強く一致し,評価を確実に完了し,ベンチマークの多様性と豊かさを検証した。
関連論文リスト
- Video-Bench: Human-Aligned Video Generation Benchmark [26.31594706735867]
生成モデルが視覚的にリアルで高品質なビデオを生成することを保証するためには、ビデオ生成アセスメントが不可欠である。
本稿では,豊富なプロンプトスイートと広範囲な評価次元を備えた総合的なベンチマークであるVideo-Benchを紹介する。
Soraを含む先進的なモデルの実験は、ビデオベンチがあらゆる次元にわたる人間の好みと優れた整合性を達成することを示した。
論文 参考訳(メタデータ) (2025-04-07T10:32:42Z) - AIGVE-Tool: AI-Generated Video Evaluation Toolkit with Multifaceted Benchmark [8.827755848017578]
既存のメトリクスには、方法論を体系的に分類するための統一されたフレームワークがない。
AI生成ビデオ評価のための構造化分類と評価パイプラインを提供する統合フレームワークであるAIGVE-Toolを紹介する。
大規模なベンチマークデータセットは、手作りの指示とプロンプトに基づいて、5つのSOTAビデオ生成モデルで作成される。
論文 参考訳(メタデータ) (2025-03-18T09:36:33Z) - Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models [51.067146460271466]
視覚生成モデルの評価には時間を要するし、計算コストもかかる。
本研究では,効率的,動的,多ラウンドな評価に人間的な戦略を用いる評価エージェントフレームワークを提案する。
1)効率性、2)多様なユーザニーズに合わせた迅速な評価、3)1つの数値スコア以上の説明可能性、4)さまざまなモデルやツールのスケーラビリティ。
論文 参考訳(メタデータ) (2024-12-10T18:52:39Z) - AIGV-Assessor: Benchmarking and Evaluating the Perceptual Quality of Text-to-Video Generation with LMM [54.44479359918971]
AIGVQA-DBは,1,048プロンプトを用いた15の高度なテキスト・ビデオ・モデルによって生成された36,576個のAIGVからなる大規模データセットである。
AIGV-Assessorは、複雑な品質特性を活用して、正確なビデオ品質スコアとペアビデオ嗜好をキャプチャする新しいVQAモデルである。
論文 参考訳(メタデータ) (2024-11-26T08:43:15Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension [27.53415400454066]
生成モデルを評価するためにSEED-Benchというベンチマークを導入する。
SEED-Benchは、正確な人間のアノテーションを持つ19Kの複数の選択質問からなる。
空間的および時間的理解の両面を網羅し,全12次元にわたる18モデルの性能評価を行った。
論文 参考訳(メタデータ) (2023-07-30T04:25:16Z) - Study on the Assessment of the Quality of Experience of Streaming Video [117.44028458220427]
本稿では,ストリーミング映像のQoEの主観的推定に対する様々な客観的要因の影響について検討する。
本論文では標準的および手作り的特徴を示し,その相関とp値を示す。
SQoE-IIIデータベースは、これまでで最大の、そして最も現実的なデータベースだ。
論文 参考訳(メタデータ) (2020-12-08T18:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。