論文の概要: HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering
- arxiv url: http://arxiv.org/abs/2512.14870v1
- Date: Tue, 16 Dec 2025 19:34:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.769035
- Title: HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering
- Title(参考訳): HERBench: ビデオ質問回答におけるマルチエビデンス統合のベンチマーク
- Authors: Dan Ben-Ami, Gabriele Serussi, Kobi Cohen, Chaim Baskin,
- Abstract要約: HERBenchはビデオQAのベンチマークで、時間をかけてマルチエビデンス統合を評価する。
HERBenchは、12の合成タスクで構成された26Kの5方向の多重選択質問で構成されている。
我々は、HERBenchが以前のデータセットよりもかなり高い需要を課していることを示す。
- 参考スコア(独自算出の注目度): 13.370338205427911
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video Large Language Models (Video-LLMs) are rapidly improving, yet current Video Question Answering (VideoQA) benchmarks often allow questions to be answered from a single salient cue, under-testing reasoning that must aggregate multiple, temporally separated visual evidence. We present HERBench, a VideoQA benchmark purpose-built to assess multi-evidence integration across time. Each question requires aggregating at least three non-overlapping evidential cues across distinct video segments, so neither language priors nor a single snapshot can suffice. HERBench comprises 26K five-way multiple-choice questions organized into twelve compositional tasks that probe identity binding, cross-entity relations, temporal ordering, co-occurrence verification, and counting. To make evidential demand measurable, we introduce the Minimum Required Frame-Set (MRFS), the smallest number of frames a model must fuse to answer correctly, and show that HERBench imposes substantially higher demand than prior datasets (mean MRFS 5.5 vs. 2.6-4.2). Evaluating 13 state-of-the-art Video-LLMs on HERBench reveals pervasive failures: accuracies of 31-42% are only slightly above the 20% random-guess baseline. We disentangle this failure into two critical bottlenecks: (1) a retrieval deficit, where frame selectors overlook key evidence, and (2) a fusion deficit, where models fail to integrate information even when all necessary evidence is provided. By making cross-time evidence both unavoidable and quantifiable, HERBench establishes a principled target for advancing robust, compositional video understanding.
- Abstract(参考訳): Video Large Language Models (Video-LLMs) は急速に改善されているが、現在のVideo Question Answering (VideoQA) ベンチマークでは、複数の時間的に分離された視覚的証拠を集約しなければならない、テスト下にある1つのキューから質問に答えることができる。
HERBenchは、時間をかけてマルチエビデンス統合を評価するために構築された、ビデオQAベンチマークである。
各質問は、異なるビデオセグメント間で少なくとも3つの重複しない明らかなキューを集約する必要があります。
HERBenchは26Kの5方向の多重選択質問を12の合成タスクに分類し、アイデンティティ結合、相互関係、時間順序付け、共起検証、カウントを行う。
明らかな要求を測定するために、モデルが正しく答えるために必要な最小のフレーム数である最小必要フレームセット(MRFS)を導入し、HERBenchが従来のデータセット(平均MRFS 5.5 vs. 2.6-4.2)よりもかなり高い要求を課していることを示す。
HERBench上の13の最先端ビデオLLMを評価すると、広範囲な障害が明らかになる。
我々は,この失敗を,(1) フレームセレクタがキーエビデンスを見落としている検索障害,(2) 融合欠陥,(2) 必要なエビデンスをすべて提供しても情報を統合できないモデルという2つの重要なボトルネックに分解する。
HERBenchは、クロスタイムエビデンスを避けられず、定量化できるものにすることで、堅牢で構成的なビデオ理解を促進するための原則的な目標を確立する。
関連論文リスト
- MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - VITED: Video Temporal Evidence Distillation [49.38292490256531]
そこで我々は,チェーン・オブ・エビデンス推論による複雑なビデオ質問応答について検討した。
モデルは、固定数のフレームを均一にサンプリングするため、多段階の推論に苦労する。
本稿では,既存のビデオQAデータセットをエビデンス・アソシエーション・チェーンで拡張するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T06:30:02Z) - Lost in Time: A New Temporal Benchmark for VideoLLMs [48.71203934876828]
現在最も使われているビデオ言語ベンチマークは、時間的推論を必要とせずに解決可能であることを示す。
提案するTVBenchは,オープンソースのマルチ選択質問応答ベンチマークである。
論文 参考訳(メタデータ) (2024-10-10T09:28:36Z) - Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal Models for Video Question Answering [11.244643114253773]
Video Question(ビデオQA)は、ビデオで観察される情報に基づいて、自然言語の質問に答えることを目的としている。
視覚的な入力として疑問クリティカルな瞬間に答えを推論するために,LMMを強制する,弱い教師付きフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-19T14:21:46Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。