論文の概要: VideoJudge: Bootstrapping Enables Scalable Supervision of MLLM-as-a-Judge for Video Understanding
- arxiv url: http://arxiv.org/abs/2509.21451v1
- Date: Thu, 25 Sep 2025 19:22:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.934436
- Title: VideoJudge: Bootstrapping Enables Scalable Supervision of MLLM-as-a-Judge for Video Understanding
- Title(参考訳): VideoJudge: ビデオ理解のためのMLLM-as-a-Judgeのスケーラブルなスーパービジョンを実現するブートストラップ
- Authors: Abdul Waheed, Zhen Wu, Dareen Alharthi, Seungone Kim, Bhiksha Raj,
- Abstract要約: ビデオ理解モデルから出力を評価するための3Bおよび7BサイズのMLLM判定器であるVideoJudgeを紹介する。
VideoJudgeのトレーニングには、ジェネレータと評価器の相互作用に基づいてレシピを構築します。
4つのメタ評価ベンチマークのうち3つで、VideoJudge-7BはMLLMの判断基準を大きく上回っている。
- 参考スコア(独自算出の注目度): 57.15309719147799
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Precisely evaluating video understanding models remains challenging: commonly used metrics such as BLEU, ROUGE, and BERTScore fail to capture the fineness of human judgment, while obtaining such judgments through manual evaluation is costly. Recent work has explored using large language models (LLMs) or multimodal LLMs (MLLMs) as evaluators, but their extension to video understanding remains relatively unexplored. In this work, we introduce VideoJudge, a 3B and 7B-sized MLLM judge specialized to evaluate outputs from video understanding models (\textit{i.e.}, text responses conditioned on videos). To train VideoJudge, our recipe builds on the interplay between a generator and an evaluator: the generator is prompted to produce responses conditioned on a target rating, and responses not matching the evaluator's rating are discarded. Across three out of four meta-evaluation benchmarks, VideoJudge-7B outperforms larger MLLM judge baselines such as Qwen2.5-VL (32B and 72B). Notably, we find that LLM judges (Qwen3) models perform worse than MLLM judges (Qwen2.5-VL) and long chain-of-thought reasoning does not improve performance, indicating that providing video inputs is crucial for evaluation of video understanding tasks.
- Abstract(参考訳): BLEU、ROUGE、BERTScoreなどの一般的なメトリクスは人間の判断の微妙さを捉えることができず、手動による判断はコストがかかる。
近年,大規模言語モデル (LLM) やマルチモーダルLLM (MLLM) を評価対象として研究されているが,ビデオ理解への拡張はいまだに未検討である。
本稿では,ビデオ理解モデルの出力を評価するための3Bおよび7BサイズのMLLM判定器であるVideoJudgeを紹介する。
VideoJudgeのトレーニングには、ジェネレータと評価器の相互作用に基づいて、ジェネレータがターゲットレーティングに条件付き応答を生成し、評価器のレーティングにマッチしない応答が破棄されるように促される。
4つのメタ評価ベンチマークのうち3つで、 VideoJudge-7B は Qwen2.5-VL (32B と 72B) のようなMLLM の判断基準よりも優れている。
特に,LLM判定器(Qwen2.5-VL)はMLLM判定器(Qwen2.5-VL)よりも性能が悪く,長鎖推論では性能が向上せず,映像理解タスクの評価には映像入力の提供が不可欠であることを示す。
関連論文リスト
- Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation [89.52571224447111]
大規模言語モデル(LLM)の判断は、要約のようなタスクのために、伝統的なアルゴリズムベースのメトリクスと併用されることが多い。
要約領域における人書き応答と重なる関数としてLLM判定バイアス分析を提案する。
論文 参考訳(メタデータ) (2026-02-07T19:39:28Z) - JudgeBoard: Benchmarking and Enhancing Small Language Models for Reasoning Evaluation [13.831735556002426]
小型言語モデル(SLM)は様々な推論タスクを約束している。
解答の正しさを判断する能力は、大言語モデル(LLM)と比較しても明らかでない。
論文 参考訳(メタデータ) (2025-11-20T01:14:39Z) - CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks [63.562924932512765]
LLM(Large Language Models)は、様々なコーディングタスクにおいて最先端の言語モデルである。
LLMは、他のモデルによって生成された応答の品質を評価し、比較する裁判官としても機能する。
論文 参考訳(メタデータ) (2025-07-14T17:56:29Z) - VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos [5.529147924182393]
我々は,AIGCビデオ上でMLLMの能力を総合的に評価するために,4つのタスクコヒーレンス検証,エラー認識,エラー型検出,推論評価を導入するVF-Evalという新しいベンチマークを提案する。
VF-Eval上での13のフロンティアMLLMを評価し、最高のパフォーマンスモデルであるGPT-4.1でさえ、全てのタスクにおいて一貫して優れたパフォーマンスを達成するのに苦労していることを発見した。
論文 参考訳(メタデータ) (2025-05-29T17:31:13Z) - Leveraging LLMs as Meta-Judges: A Multi-Agent Framework for Evaluating LLM Judgments [6.270885758858811]
大規模言語モデル(LLM)は様々な分野に広く適用されているが、タスクが複雑化するにつれて、その応答を評価することはますます困難になっている。
提案する3段階のメタジャッジ選択パイプラインは,1) GPT-4とヒトの専門家による包括的ルーリックの開発,2) 3つの高度なLCMエージェントによる判定,3)低スコア判定の除去のためのしきい値の適用,である。
ジャッジベンチデータセットの実験結果は、生判定と比較して約15.55%改善し、単エージェントベースラインよりも約8.37%改善したことを示している。
論文 参考訳(メタデータ) (2025-04-23T20:32:12Z) - Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators [66.83088028268318]
本稿では,テスト時間スケーリングベンチマークの判定評価について紹介する。
3つのタスク設定の下で、3つのドメイン(推論、コード生成、命令従)での判定性能を評価する。
我々のベンチマークは、審査員が再評価において結果報酬モデルと競合する一方で、ビームサーチにおけるプロセス報酬モデルよりも一貫して悪いことを示している。
論文 参考訳(メタデータ) (2025-04-21T17:33:23Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。