論文の概要: FingER: Content Aware Fine-grained Evaluation with Reasoning for AI-Generated Videos
- arxiv url: http://arxiv.org/abs/2504.10358v1
- Date: Mon, 14 Apr 2025 16:07:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:54:48.596236
- Title: FingER: Content Aware Fine-grained Evaluation with Reasoning for AI-Generated Videos
- Title(参考訳): FingER:AI生成ビデオの推論によるきめ細かい評価を意識したコンテンツ
- Authors: Rui Chen, Lei Sun, Jing Tang, Geng Li, Xiangxiang Chu,
- Abstract要約: 本稿では,新しいエンティティレベルの推論評価フレームワークである $textbfF$ine-fine $textbfE$ntity-level を提案する。
我々のモデルは、GenAI-Benchが11.8%、MonetBenchが5.5%、トレーニングビデオが3.3kという既存の手法をはるかに上回っている。
- 参考スコア(独自算出の注目度): 18.3012265316413
- License:
- Abstract: Recent advances in video generation have posed great challenges in the assessment of AI-generated content, particularly with the emergence of increasingly sophisticated models. The various inconsistencies and defects observed in such videos are inherently complex, making overall scoring notoriously difficult. In this paper, we emphasize the critical importance of integrating fine-grained reasoning into video evaluation, and we propose $\textbf{F}$ing$\textbf{ER}$, a novel entity-level reasoning evaluation framework that first automatically generates $\textbf{F}$ine-grained $\textbf{E}$ntity-level questions, and then answers those questions by a $\textbf{R}$easoning model with scores, which can be subsequently weighted summed to an overall score for different applications. Specifically, we leverage LLMs to derive entity-level questions across five distinct perspectives, which (i) often focus on some specific entities of the content, thereby making answering or scoring much easier by MLLMs, and (ii) are more interpretable. Then we construct a FingER dataset, consisting of approximately 3.3k videos and corresponding 60k fine-grained QA annotations, each with detailed reasons. Based on that, we further investigate various training protocols to best incentivize the reasoning capability of MLLMs for correct answer prediction. Extensive experiments demonstrate that a reasoning model trained using Group Relative Policy Optimization (GRPO) with a cold-start strategy achieves the best performance. Notably, our model surpasses existing methods by a relative margin of $11.8\%$ on GenAI-Bench and $5.5\%$ on MonetBench with only 3.3k training videos, which is at most one-tenth of the training samples utilized by other methods. Our code and dataset will be released soon.
- Abstract(参考訳): ビデオ生成の最近の進歩は、AI生成コンテンツの評価において大きな課題をもたらしており、特に、ますます洗練されたモデルが出現している。
このようなビデオで見られる様々な矛盾や欠陥は本質的に複雑で、全体的に評価が難しい。
本稿では、ビデオ評価に微粒な推論を統合することの重要性を強調し、まず最初に$\textbf{F}$ine-fine $\textbf{E}$ntity-level Questionを自動生成する新しいエンティティレベルの推論評価フレームワークである$\textbf{F}$ing$\textbf{ER}$ing$を提案し、その後、スコアを持つ$\textbf{R}$easoningモデルを用いてこれらの質問に回答し、その結果、各アプリケーションに対する総合的なスコアに重み付けすることができる。
具体的には、LLMを活用して、5つの異なる視点でエンティティレベルの質問を導出する。
(i)内容の特定の実体に焦点を合わせ、MLLMによる回答や得点がより容易になることが多い。
(ii)より解釈しやすい。
次に、約3.3kのビデオとそれに対応する60kの詳細なQAアノテーションからなるFingERデータセットを構築し、それぞれに詳細な理由がある。
そこで本研究では,MLLMの推論能力を高めるための各種学習プロトコルについて検討する。
集団相対的政策最適化(GRPO)を用いて訓練された推論モデルがコールドスタート戦略によって最高の性能を達成できることを、広範囲にわたる実験により実証した。
特に,GenAI-Benchでは11.8\%,MonetBenchでは5.5\%,トレーニングビデオは3.3kであり,他の手法ではトレーニングサンプルの10分の1以上である。
コードとデータセットはまもなくリリースされます。
関連論文リスト
- ReasVQA: Advancing VideoQA with Imperfect Reasoning Process [38.4638171723351]
textbfReasVQA (Reasoning-enhanced Video Question Answering) は、MLLM(Multimodal Large Language Models)が生成する推論プロセスを活用して、ビデオQAモデルの性能を向上させる新しい手法である。
NExT-QAでは+2.9、STARでは+7.3、IntentQAでは+5.9が大幅に改善された。
論文 参考訳(メタデータ) (2025-01-23T10:35:22Z) - SCBench: A Sports Commentary Benchmark for Video LLMs [19.13963551534595]
我々は,ビデオ大言語モデル(ビデオLLM)のためのスポーツビデオ解説生成のためのベンチマークを開発する。
$textbfSCBench$はタスク用に特別に設計された6次元計量であり、GPTに基づく評価手法を提案する。
結果,InternVL-Chat-2は5.44で最高の性能を示し,1.04で2位となった。
論文 参考訳(メタデータ) (2024-12-23T15:13:56Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - BoViLA: Bootstrapping Video-Language Alignment via LLM-Based Self-Questioning and Answering [14.18251228789751]
自己調査と回答を通じて,学習中の質問サンプルを増強する自己学習フレームワークであるBoViLAを提案する。
我々は,不確実性を推定し,自己生成質問の品質を評価するために,Evidential Deep Learning (EDL)を導入した。
論文 参考訳(メタデータ) (2024-09-17T05:17:37Z) - Great Memory, Shallow Reasoning: Limits of $k$NN-LMs [71.73611113995143]
検索とnext-word予測を統合した$k$NN-LMsは、言語モデリングにおいて強力な性能を示している。
この改良された情報リコール能力が、本当に下流の能力に変換されるかどうかを問う。
論文 参考訳(メタデータ) (2024-08-21T17:59:05Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - VLKEB: A Large Vision-Language Model Knowledge Editing Benchmark [53.091690659399234]
大規模言語モデル(LLM)の知識編集は注目されている。
3つのメトリクス(信頼性、局所性、一般性)からなる既存のLVLM編集ベンチマークは、合成された評価画像の品質が不足している。
我々は、新しいLarge $textbfV$ision-$textbfL$anguage Modelを構築するために、より信頼性の高いデータ収集手法を使用します。
論文 参考訳(メタデータ) (2024-03-12T06:16:33Z) - What Makes Good In-Context Examples for GPT-$3$? [101.99751777056314]
GPT-$3$はNLPタスクの広い範囲でその優れた性能のために多くの注目を集めています。
その成功にもかかわらず、我々はGPT-$3$の実証結果が文脈内例の選択に大きく依存していることを発見した。
本研究では,文脈内事例を適切に選択するためのより効果的な戦略が存在するかを検討する。
論文 参考訳(メタデータ) (2021-01-17T23:38:40Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。