論文の概要: Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models
- arxiv url: http://arxiv.org/abs/2503.18923v2
- Date: Wed, 13 Aug 2025 17:44:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 16:17:42.285763
- Title: Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models
- Title(参考訳): Video SimpleQA: 大規模ビデオ言語モデルにおけるファクチュアリティ評価を目指して
- Authors: Meng Cao, Pengfei Hu, Yingyao Wang, Jihao Gu, Haoran Tang, Haoze Zhao, Chen Wang, Jiahua Dong, Wangbo Yu, Ge Zhang, Jun Song, Xiang Li, Bo Zheng, Ian Reid, Xiaodan Liang,
- Abstract要約: Video SimpleQAは、ビデオコンテキストにおける事実性評価に適した最初の包括的なベンチマークである。
我々の研究は、既存のビデオベンチマークとは以下の重要な特徴によって異なる: 知識: ビデオの明示的な物語を超えた外部知識の統合を要求する。
短い形式の決定的な答え: 回答は、最小のスコアリング分散を持つ短いフォーマットで、曖昧で決定的に正しいものとして作成されます。
- 参考スコア(独自算出の注目度): 77.96693360763925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Video Language Models (LVLMs) have highlighted their potential for multi-modal understanding, yet evaluating their factual grounding in videos remains a critical unsolved challenge. To address this gap, we introduce Video SimpleQA, the first comprehensive benchmark tailored for factuality evaluation in video contexts. Our work differs from existing video benchmarks through the following key features: 1) Knowledge required: demanding integration of external knowledge beyond the video's explicit narrative; 2) Multi-hop fact-seeking question: Each question involves multiple explicit facts and requires strict factual grounding without hypothetical or subjective inferences. We also include per-hop single-fact-based sub-QAs alongside final QAs to enable fine-grained, stepby-step evaluation; 3) Short-form definitive answer: Answers are crafted as unambiguous and definitively correct in a short format with minimal scoring variance; 4) Temporal grounded required: Requiring answers to rely on one or more temporal segments in videos, rather than single frames. We extensively evaluate 33 state-of-the-art LVLMs and summarize key findings as follows: 1) Current LVLMs exhibit notable deficiencies in factual adherence, with the best-performing model o3 merely achieving an F-score of 66.3%; 2) Most LVLMs are overconfident in what they generate, with self-stated confidence exceeding actual accuracy; 3) Retrieval-augmented generation demonstrates consistent improvements at the cost of additional inference time overhead; 4) Multi-hop QA demonstrates substantially degraded performance compared to single-hop sub-QAs, with first-hop object or event recognition emerging as the primary bottleneck. We position Video SimpleQA as the cornerstone benchmark for video factuality assessment, aiming to steer LVLM development toward verifiable grounding in real-world contexts.
- Abstract(参考訳): 大規模ビデオ言語モデル(LVLM)の最近の進歩は、マルチモーダルな理解の可能性を強調している。
このギャップに対処するために、ビデオコンテキストにおける実写性評価に適した最初の総合的なベンチマークであるVideo SimpleQAを紹介する。
私たちの作業は、以下の重要な機能を通じて、既存のビデオベンチマークと異なります。
1) 必要な知識:映像の明示的な物語を超えて外部知識の統合を要求する。
2)マルチホップ事実探索質問:各質問には複数の明示的な事実が含まれており,仮説や主観的推論を伴わない厳密な事実的根拠が必要である。
また、最終QAとともに、ホップごとのシングルファクトベースのサブQAも含んで、きめ細かなステップバイステップの評価を可能にします。
3) 短文決定回答: 回答は,最小の採点分散を有する短い書式において曖昧かつ決定的に正しいものとして作成される。
4) 時間的根拠: 一つのフレームではなく、ビデオ内の1つ以上の時間的セグメントに依存する答えを必要とする。
我々は33種類のLVLMを広範囲に評価し、以下の重要な知見を要約する。
1) 現行のLVLMは,Fスコア66.3%に留まらず,実効性に顕著な欠陥を呈している。
2 大半のLVLMは、生み出すものを過信しており、自己定性は、実際の正確性を超えている。
3 検索増強世代は、追加の推論時間オーバーヘッドを犠牲にして、一貫した改善を示す。
4) マルチホップQAは, シングルホップサブQAに比べて著しく性能が低下し, ファーストホップオブジェクトやイベント認識が主なボトルネックとなっている。
我々は,LVLM開発を現実の文脈で検証可能な基盤に向けて進めることを目的とした,映像ファクトリティ評価の基盤となるベンチマークとして,Video SimpleQAを位置付ける。
関連論文リスト
- LeAdQA: LLM-Driven Context-Aware Temporal Grounding for Video Question Answering [10.060267989615813]
本稿では,これらのギャップを埋める斬新な手法であるLeAdQAを紹介する。
NExT-QA, IntentQA, NExT-GQAに関する実験により, 本手法の正確な視覚的基盤化は, 映像検索関係の理解を著しく向上させることを示した。
論文 参考訳(メタデータ) (2025-07-20T01:57:00Z) - HV-MMBench: Benchmarking MLLMs for Human-Centric Video Understanding [79.06209664703258]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。
既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。
我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-07T11:52:24Z) - CIVET: Systematic Evaluation of Understanding in VLMs [1.760351767085873]
VLM(Vision-Language Models)は、様々なタスクにおいて競争力を発揮する。
対象物の性質と関係を制御・解釈可能な方法で研究する。
我々は,システマティC評価のための新しいフレームワークであるCIVETを紹介した。
論文 参考訳(メタデータ) (2025-06-05T15:27:16Z) - VisualSimpleQA: A Benchmark for Decoupled Evaluation of Large Vision-Language Models in Fact-Seeking Question Answering [28.045285777736876]
2つの重要な特徴を持つマルチモーダルなファクト検索ベンチマークであるVisualSimpleQAを紹介する。
視覚的・言語的モダリティにおけるLVLMの合理化・分離評価を可能にする。
15個のLVLMの実験では、GPT-4oのような最先端のモデルでさえ、わずか60%以上の精度しか達成していない。
論文 参考訳(メタデータ) (2025-03-09T07:25:32Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [65.92331309449015]
本稿では,モデル能力の特定の側面に基づいてLVLMをベンチマークする,オンデマンドで評価を行う自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力に対して9つの人気のあるLVLMを広範囲に評価することにより、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - Improving Retrieval Augmented Language Model with Self-Reasoning [20.715106330314605]
本稿では,ALMの信頼性とトレーサビリティ向上を目的とした,新たな自己推論フレームワークを提案する。
このフレームワークは、関連性を認識したプロセス、エビデンスを認識した選択プロセス、軌跡解析プロセスの3つのプロセスで自己推論軌道を構築することを含む。
提案手法の優位性を示すため,4つの公開データセットにまたがるフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-07-29T09:05:10Z) - VideoEval: Comprehensive Benchmark Suite for Low-Cost Evaluation of Video Foundation Model [22.188795668927586]
ビデオファウンデーションモデル(VFM)は近年大きな進歩を遂げている。
既存のベンチマークと評価プロトコルは、比較的低い多様性、高い評価コスト、飽和したパフォーマンスメトリクスによって制限されることが多い。
これらの問題、すなわちVideoEvalに対処するための包括的なベンチマークスイートを構築しています。
論文 参考訳(メタデータ) (2024-07-09T01:49:08Z) - Unveiling the Tapestry of Consistency in Large Vision-Language Models [25.106467574467448]
提案手法は,プロンプトの解空間が知識点を中心に回転するときに,LVLMがどう機能するかを直感的に解析するベンチマークである。
ConBenchツールに基づいて、タペストリーを最初に公開し、以下の結果を得た。
我々は,本論文が研究コミュニティのモデル評価を加速し,一貫性領域の今後の進歩を促進することを願っている。
論文 参考訳(メタデータ) (2024-05-23T04:08:23Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。