Fugu-MT 論文翻訳(概要): RefereeBench: Are Video MLLMs Ready to be Multi-Sport Referees

論文の概要: RefereeBench: Are Video MLLMs Ready to be Multi-Sport Referees

arxiv url: http://arxiv.org/abs/2604.15736v1
Date: Fri, 17 Apr 2026 06:22:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-20 22:00:19.763287
Title: RefereeBench: Are Video MLLMs Ready to be Multi-Sport Referees
Title（参考訳）: RefereeBench:ビデオMLLMはマルチスポーツレフェリーになる準備ができている
Authors: Yichen Xu, Yuanhang Liu, Chuhan Wang, Zihan Zhao, jinghan luo, Jianzhe Ma, Wenxuan Wang, Qin Jin,
Abstract要約: 本稿では,MLLMを自動スポーツ審判として評価する最初の大規模ベンチマークであるRefereeBenchを紹介する。このベンチマークは、ロジックとマルチモーダルなエビデンスを認証するための高品質なアノテーションを保証するために、完全に人間に注釈付けされている。我々のベンチマークでは、ドメイン知識とマルチモーダル理解をよりうまく統合する将来のMLLMの必要性を強調している。
参考スコア（独自算出の注目度）: 47.20504438153184
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While Multimodal Large Language Models (MLLMs) excel at generic video understanding, their ability to support specialized, rule-grounded decision-making remains insufficiently explored. In this paper, we introduce RefereeBench, the first large-scale benchmark for evaluating MLLMs as automatic sports referees. Spanning 11 sports with 925 curated videos and 6,475 QA pairs, RefereeBench evaluates five core officiating abilities: foul existence, foul and penalty classification, foul and penalty reasoning, entity perception, and temporal grounding. The benchmark is fully human-annotated to ensure high-quality annotations grounded in authentic officiating logic and multimodal evidence. Extensive evaluations of state-of-the-art MLLMs show that even the strongest models, such as Doubao-Seed-1.8 and Gemini-3-Pro, achieve only around 60% accuracy, while the strongest open-source model, Qwen3-VL, reaches only 47%. These results indicate that current models remain far from being reliable sports referees. Further analysis shows that while models can often identify incidents and involved entities, they struggle with rule application and temporal grounding, and frequently over-call fouls on normal clips. Our benchmark highlights the need for future MLLMs that better integrate domain knowledge and multimodal understanding, advancing trustworthy AI-assisted officiating and broader multimodal decision-making.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は一般的なビデオ理解に優れるが、専門的なルールに基づく意思決定を支援する能力はいまだ不十分である。本稿では,MLLMを自動スポーツ審判として評価する最初の大規模ベンチマークであるRefereeBenchを紹介する。 RefereeBench氏は、925のキュレートされたビデオと6,475のQAペアを備えた11のスポーツを、ファールの存在、ファールとペナルティの分類、ファールとペナルティの推論、エンティティの知覚、時間的根拠の5つのコアとして評価している。このベンチマークは、ロジックとマルチモーダルなエビデンスを認証するための高品質なアノテーションを保証するために、完全に人間に注釈付けされている。最先端MLLMの大規模な評価によると、Doubao-Seed-1.8やGemini-3-Proのような最強モデルでさえ60%の精度しか達成できず、最強のオープンソースモデルであるQwen3-VLはわずか47%である。これらの結果は、現在のモデルは信頼性のあるスポーツ審判からかけ離れていることを示している。さらに分析すると、モデルはしばしばインシデントや関連するエンティティを識別できるが、ルールの適用や時間的根拠に苦慮し、通常のクリップでしばしばオーバーコールされるファールに悩まされる。私たちのベンチマークでは、ドメイン知識とマルチモーダル理解をよりうまく統合し、信頼性の高いAI支援による、より広範なマルチモーダル意思決定を促進する、将来のMLLMの必要性を強調しています。

関連論文リスト

Probing Multimodal Large Language Models on Cognitive Biases in Chinese Short-Video Misinformation [34.28647703173823]
短いビデオプラットフォームは誤情報の主要なチャネルとなり、虚偽の主張は視覚実験や社会的手がかりを活用する。 4つの健康ドメインにまたがる200本の短いビデオからなる高品質で手動の注釈付きデータセットを用いた総合的な評価フレームワークを提案する。このデータセットは、3つの偽りのパターン、実験的なエラー、論理的誤認、および製造されたクレームに対するきめ細かいアノテーションを提供する。
論文参考訳（メタデータ） (2026-01-10T15:43:30Z)
Self-Improving VLM Judges Without Human Annotations [74.29324865147838]
自己合成データのみを用いて,人間の好みのアノテーションを使わずにVLM判断モデルを自己学習する枠組みを提案する。提案手法は,Llama-3.2-11Bマルチモーダル判定を0.38から0.51に改善する。これらの注釈のない結果の全体的な強みは、VLM能力の急速な向上とともに進化する将来の自己判断の可能性を示している。
論文参考訳（メタデータ） (2025-12-02T20:52:19Z)
VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding [70.00000053847738]
物理的な世界と対話するAIシステムには、真の視覚的理解が不可欠である。現在の評価では、主にトレーニングデータと同様の実際のビデオを使用する。物理的に不可能または論理的に矛盾する事象を描写するビデオを用いた負制御テストを提案する。
論文参考訳（メタデータ） (2025-05-02T15:58:38Z)
Multimodal RewardBench: Holistic Evaluation of Reward Models for Vision Language Models [82.92771279118888]
マルチモーダル報酬モデルを評価するためのエキスパートアノテートベンチマークであるMultimodal RewardBenchを紹介する。我々のデータセットは、様々な視覚言語モデルから収集された5,211個の注釈付き(プロンプト、選択された応答、拒否された応答)三つ子からなる。 Gemini 1.5 ProやClaude 3.5 Sonnetといったトップパフォーマンスモデルでさえ、全体的な精度は72%に過ぎません。
論文参考訳（メタデータ） (2025-02-20T01:48:13Z)
Benchmarking Gaslighting Negation Attacks Against Multimodal Large Language Models [45.63440666848143]
MLLM(Multimodal Large Language Models)は、様々なモダリティの統合において顕著な進歩を見せている。彼らの成功にもかかわらず、MLLMは会話の敵対的な入力に弱いままである。我々は,最初に正しい回答を提供するモデルが,ユーザが提供する否定によってそのアウトプットを逆転するように説得される現象であるガスライティング否定攻撃について検討する。
論文参考訳（メタデータ） (2025-01-31T10:37:48Z)
SPORTU: A Comprehensive Sports Understanding Benchmark for Multimodal Large Language Models [15.062299319625701]
SPORTUはマルチレベルスポーツ推論タスク間でMLLM(Multimodal Large Language Models)を評価するために設計されたベンチマークである。 SPORTUは2つの重要なコンポーネントで構成されている。 SPORTU-textは900の多重選択質問と、ルール理解と戦略理解のための人間アノテーションによる説明を含む。 SPORTUビデオは、7つの異なるスポーツで1,701本のスローモーションビデオクリップと12,048本のQAペアで構成され、マルチレベル推論を評価するように設計されている。
論文参考訳（メタデータ） (2024-10-11T02:58:38Z)
A Survey on Benchmarks of Multimodal Large Language Models [65.87641718350639]
本稿では,Multimodal Large Language Models (MLLM) のベンチマークと評価について概説する。本研究では,(1)知覚と理解,(2)認知と推論,(3)特定のドメイン,(4)キー能力,(5)他のモダリティに着目した。我々のキーとなる主張は、MLLMの開発をより良いものにするための重要な規律として評価されるべきである、ということである。
論文参考訳（メタデータ） (2024-08-16T09:52:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。