論文の概要: VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos
- arxiv url: http://arxiv.org/abs/2505.23693v1
- Date: Thu, 29 May 2025 17:31:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.037678
- Title: VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos
- Title(参考訳): VF-Eval:AIGCビデオのフィードバック生成のためのマルチモーダルLLMの評価
- Authors: Tingyu Song, Tongyan Hu, Guo Gan, Yilun Zhao,
- Abstract要約: 我々は,AIGCビデオ上でMLLMの能力を総合的に評価するために,4つのタスクコヒーレンス検証,エラー認識,エラー型検出,推論評価を導入するVF-Evalという新しいベンチマークを提案する。
VF-Eval上での13のフロンティアMLLMを評価し、最高のパフォーマンスモデルであるGPT-4.1でさえ、全てのタスクにおいて一貫して優れたパフォーマンスを達成するのに苦労していることを発見した。
- 参考スコア(独自算出の注目度): 5.529147924182393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: MLLMs have been widely studied for video question answering recently. However, most existing assessments focus on natural videos, overlooking synthetic videos, such as AI-generated content (AIGC). Meanwhile, some works in video generation rely on MLLMs to evaluate the quality of generated videos, but the capabilities of MLLMs on interpreting AIGC videos remain largely underexplored. To address this, we propose a new benchmark, VF-Eval, which introduces four tasks-coherence validation, error awareness, error type detection, and reasoning evaluation-to comprehensively evaluate the abilities of MLLMs on AIGC videos. We evaluate 13 frontier MLLMs on VF-Eval and find that even the best-performing model, GPT-4.1, struggles to achieve consistently good performance across all tasks. This highlights the challenging nature of our benchmark. Additionally, to investigate the practical applications of VF-Eval in improving video generation, we conduct an experiment, RePrompt, demonstrating that aligning MLLMs more closely with human feedback can benefit video generation.
- Abstract(参考訳): 近年,ビデオ質問応答のためのMLLMが広く研究されている。
しかし、既存のアセスメントのほとんどは、AIGC(AI- generated content)のような合成ビデオを見渡す自然なビデオに焦点を当てている。
一方、ビデオ生成におけるいくつかの研究は、生成されたビデオの品質を評価するためにMLLMに依存しているが、AIGCビデオの解釈におけるMLLMの能力は、大半は未解明のままである。
そこで我々は,AIGCビデオ上でMLLMの能力を総合的に評価するために,タスクコヒーレンス検証,エラー認識,エラー型検出,推論評価という4つのタスクコヒーレンス検証を導入した新しいベンチマークVF-Evalを提案する。
VF-Eval上での13のフロンティアMLLMを評価し、最高のパフォーマンスモデルであるGPT-4.1でさえ、全てのタスクにおいて一貫して優れたパフォーマンスを達成するのに苦労していることを発見した。
これはベンチマークの難しい性質を強調します。
さらに,ビデオ生成におけるVF-Evalの実践的応用を検討するために,人間のフィードバックとより緊密に協調するMLLMがビデオ生成に有効であることを示す実験RePromptを行った。
関連論文リスト
- UVE: Are MLLMs Unified Evaluators for AI-Generated Videos? [20.199060287444162]
本稿では,AI生成ビデオ(AIGV)の統一評価手段として,マルチモーダル大言語モデル(MLLM)の有用性について検討する。
UVE-Benchは、最先端のVGMによって生成されたビデオを収集し、15の評価側面でペアワイズな人間の好みアノテーションを提供する。
以上の結果から,高度なMLLMは人間の評価よりも遅れているものの,AIGV評価を統一する上で有望な能力を示すことが示唆された。
論文 参考訳(メタデータ) (2025-03-13T01:52:27Z) - InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。
InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。
実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-01-21T18:59:00Z) - VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI [17.763461523794806]
VidEgoThinkは、Embodied AIでエゴセントリックなビデオ理解能力を評価するためのベンチマークである。
我々は,ビデオ質問応答,階層計画,視覚的グラウンド,報酬モデリングの4つの重要な相互関連タスクを設計する。
APIベースのMLLM,オープンソースイメージベースのMLLM,オープンソースビデオベースのMLLMの3種類のモデルで広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-15T14:08:53Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - VLM-Eval: A General Evaluation on Video Large Language Models [16.92780012093112]
キャプション,質問と回答,検索,行動認識など,複数のビデオタスクを含む統合評価を導入する。
本稿では, 1 つの線形射影を用いて既存のビデオ LLM より優れるビデオ-LLaVA を提案する。
ビデオLLMを学術データセットを超えて評価し,数百対のビデオインストラクションペアのみを微調整で駆動シナリオの認識と推論能力を示す。
論文 参考訳(メタデータ) (2023-11-20T16:02:10Z) - ViLMA: A Zero-Shot Benchmark for Linguistic and Temporal Grounding in
Video-Language Models [28.305932427801682]
ViLMA(ビデオ言語モデルアセスメント)は,VidLMのきめ細かい機能を評価するタスク非依存のベンチマークである。
ViLMAは、コントロールされた評価スイートを提供し、これらのモデルの真の可能性と、人間レベルの理解と比較してパフォーマンスのギャップを浮き彫りにしている。
静止画像を用いた視覚言語モデルに比べ,現在のVidLMの接地能力は良くないことを示す。
論文 参考訳(メタデータ) (2023-11-13T02:13:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。