論文の概要: AIGVE-MACS: Unified Multi-Aspect Commenting and Scoring Model for AI-Generated Video Evaluation
- arxiv url: http://arxiv.org/abs/2507.01255v1
- Date: Wed, 02 Jul 2025 00:20:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.965029
- Title: AIGVE-MACS: Unified Multi-Aspect Commenting and Scoring Model for AI-Generated Video Evaluation
- Title(参考訳): AIGVE-MACS:AI生成ビデオ評価のための統一マルチアスペクトコメントとスコアモデル
- Authors: Xiao Liu, Jiawei Zhang,
- Abstract要約: AI生成ビデオ評価(AIGVE)のための統合モデルAIVE-MACSを紹介する。
AIGVE-BENCH 2は、2500のAI生成ビデオと22,500の人間による注釈付き詳細なコメントと数値スコアからなる大規模なベンチマークです。
教師付きベンチマークとゼロショットベンチマークの総合的な実験は、AIGVE-MACSがスコアリング相関とコメント品質の両方で最先端のパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 11.572835837392867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of AI-generated video models has created a pressing need for robust and interpretable evaluation frameworks. Existing metrics are limited to producing numerical scores without explanatory comments, resulting in low interpretability and human evaluation alignment. To address those challenges, we introduce AIGVE-MACS, a unified model for AI-Generated Video Evaluation(AIGVE), which can provide not only numerical scores but also multi-aspect language comment feedback in evaluating these generated videos. Central to our approach is AIGVE-BENCH 2, a large-scale benchmark comprising 2,500 AI-generated videos and 22,500 human-annotated detailed comments and numerical scores across nine critical evaluation aspects. Leveraging AIGVE-BENCH 2, AIGVE-MACS incorporates recent Vision-Language Models with a novel token-wise weighted loss and a dynamic frame sampling strategy to better align with human evaluators. Comprehensive experiments across supervised and zero-shot benchmarks demonstrate that AIGVE-MACS achieves state-of-the-art performance in both scoring correlation and comment quality, significantly outperforming prior baselines including GPT-4o and VideoScore. In addition, we further showcase a multi-agent refinement framework where feedback from AIGVE-MACS drives iterative improvements in video generation, leading to 53.5% quality enhancement. This work establishes a new paradigm for comprehensive, human-aligned evaluation of AI-generated videos. We release the AIGVE-BENCH 2 and AIGVE-MACS at https://huggingface.co/xiaoliux/AIGVE-MACS.
- Abstract(参考訳): AI生成ビデオモデルの急速な進歩により、堅牢で解釈可能な評価フレームワークの必要性が高まっている。
既存のメトリクスは、説明的コメントなしで数値スコアを生成することに限定されており、解釈可能性の低下と人間の評価アライメントをもたらす。
これらの課題に対処するため,AIGVE(AI-Generated Video Evaluation)の統一モデルであるAIGVE-MACSを導入する。
AIGVE-BENCH 2は、2500のAI生成ビデオと22,500の人間による注釈付き詳細なコメントと9つの重要な評価側面の数値スコアからなる大規模なベンチマークです。
AIGVE-BENCH 2を活用するAIGVE-MACSは、新しいトークン単位の重み付き損失と、人間の評価値との整合性を改善する動的なフレームサンプリング戦略を備えた、最近のビジョンランゲージモデルを採用している。
教師付きベンチマークとゼロショットベンチマークの総合的な実験により、AIGVE-MACSはスコア相関とコメント品質の両方において最先端のパフォーマンスを達成し、GPT-4oやVideoScoreなどの先行ベースラインを著しく上回った。
さらに、AIGVE-MACSからのフィードバックがビデオ生成の反復的な改善を促し、53.5%の品質向上をもたらすマルチエージェント改善フレームワークについても紹介する。
この研究は、AI生成ビデオの包括的な人間による評価のための新しいパラダイムを確立する。
AIGVE-BENCH 2とAIGVE-MACSをhttps://huggingface.co/xiaoliux/AIGVE-MACSでリリースする。
関連論文リスト
- VideoGen-Eval: Agent-based System for Video Generation Evaluation [54.662739174367836]
ビデオ生成は、最先端のモデルを評価するのに、既存の評価システムを不十分にしている。
本稿では,コンテンツ構造化,MLLMに基づくコンテンツ判断,時空間次元のパッチツールを統合したエージェント評価システムであるVideoGen-Evalを提案する。
我々は,既存の最先端モデルを評価するためのビデオ生成ベンチマークを導入し,評価システムの有効性を検証する。
論文 参考訳(メタデータ) (2025-03-30T14:12:21Z) - AIGVE-Tool: AI-Generated Video Evaluation Toolkit with Multifaceted Benchmark [8.827755848017578]
既存のメトリクスには、方法論を体系的に分類するための統一されたフレームワークがない。
AI生成ビデオ評価のための構造化分類と評価パイプラインを提供する統合フレームワークであるAIGVE-Toolを紹介する。
大規模なベンチマークデータセットは、手作りの指示とプロンプトに基づいて、5つのSOTAビデオ生成モデルで作成される。
論文 参考訳(メタデータ) (2025-03-18T09:36:33Z) - UVE: Are MLLMs Unified Evaluators for AI-Generated Videos? [20.199060287444162]
本稿では,AI生成ビデオ(AIGV)の統一評価手段として,マルチモーダル大言語モデル(MLLM)の有用性について検討する。
UVE-Benchは、最先端のVGMによって生成されたビデオを収集し、15の評価側面でペアワイズな人間の好みアノテーションを提供する。
以上の結果から,高度なMLLMは人間の評価よりも遅れているものの,AIGV評価を統一する上で有望な能力を示すことが示唆された。
論文 参考訳(メタデータ) (2025-03-13T01:52:27Z) - AIGV-Assessor: Benchmarking and Evaluating the Perceptual Quality of Text-to-Video Generation with LMM [54.44479359918971]
AIGVQA-DBは,1,048プロンプトを用いた15の高度なテキスト・ビデオ・モデルによって生成された36,576個のAIGVからなる大規模データセットである。
AIGV-Assessorは、複雑な品質特性を活用して、正確なビデオ品質スコアとペアビデオ嗜好をキャプチャする新しいVQAモデルである。
論文 参考訳(メタデータ) (2024-11-26T08:43:15Z) - Benchmarking Multi-dimensional AIGC Video Quality Assessment: A Dataset and Unified Model [56.03592388332793]
主観的・客観的な品質評価の観点からAIGC-VQA問題を考察する。
主観的観点からは,2,808本のAIGCビデオからなる大規模映像品質評価(LGVQ)データセットを構築した。
我々は,AIGCビデオの知覚的品質を,空間的品質,時間的品質,テキスト・ビデオアライメントの3つの重要な次元から評価した。
本稿では,AIGCビデオの多次元品質を正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-31T07:54:26Z) - GAIA: Rethinking Action Quality Assessment for AI-Generated Videos [56.047773400426486]
アクション品質アセスメント(AQA)アルゴリズムは、主に実際の特定のシナリオからのアクションに焦点を当て、規範的なアクション機能で事前訓練されている。
我々は,新たな因果推論の観点から大規模主観評価を行うことにより,GAIAを構築した。
その結果、従来のAQA手法、最近のT2Vベンチマークにおけるアクション関連指標、メインストリームビデオ品質手法は、それぞれ0.454、0.191、0.519のSRCCで性能が良くないことがわかった。
論文 参考訳(メタデータ) (2024-06-10T08:18:07Z) - AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated
by AI [1.1035305628305816]
本稿では,様々なビデオ生成タスクを評価するために設計された,先駆的な総合ベンチマークであるAIGCBenchを紹介する。
等価条件下で異なる最先端アルゴリズムを評価する、多様なオープンドメインの画像テキストデータセット。
我々は、リッチテキストプロンプトを作成するために、新しいテキストコンバインダーとGPT-4を使用し、高度なテキスト・ツー・イメージモデルを用いて画像を生成する。
論文 参考訳(メタデータ) (2024-01-03T10:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。