論文の概要: VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos
- arxiv url: http://arxiv.org/abs/2506.10857v1
- Date: Thu, 12 Jun 2025 16:17:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.832186
- Title: VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos
- Title(参考訳): VRBench:ロングナラティブビデオにおけるマルチステップ推論のベンチマーク
- Authors: Jiashuo Yu, Yue Wu, Meng Chu, Zhifei Ren, Zizheng Huang, Pei Chu, Ruijie Zhang, Yinan He, Qirui Li, Songze Li, Zhenxiang Li, Zhongying Tu, Conghui He, Yu Qiao, Yali Wang, Yi Wang, Limin Wang,
- Abstract要約: 大型モデルの多段階推論能力を評価するために開発されたVRBenchは,最初の長めのナラティブビデオベンチマークである。
ビデオの長さは1010本(平均1.6時間)、人間ラベル付き多段階質問応答ペア9,468本、タイムスタンプ付き推論ステップ30,292本。
- 参考スコア(独自算出の注目度): 41.9704057910616
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present VRBench, the first long narrative video benchmark crafted for evaluating large models' multi-step reasoning capabilities, addressing limitations in existing evaluations that overlook temporal reasoning and procedural validity. It comprises 1,010 long videos (with an average duration of 1.6 hours), along with 9,468 human-labeled multi-step question-answering pairs and 30,292 reasoning steps with timestamps. These videos are curated via a multi-stage filtering process including expert inter-rater reviewing to prioritize plot coherence. We develop a human-AI collaborative framework that generates coherent reasoning chains, each requiring multiple temporally grounded steps, spanning seven types (e.g., event attribution, implicit inference). VRBench designs a multi-phase evaluation pipeline that assesses models at both the outcome and process levels. Apart from the MCQs for the final results, we propose a progress-level LLM-guided scoring metric to evaluate the quality of the reasoning chain from multiple dimensions comprehensively. Through extensive evaluations of 12 LLMs and 16 VLMs on VRBench, we undertake a thorough analysis and provide valuable insights that advance the field of multi-step reasoning.
- Abstract(参考訳): 提案するVRBenchは,大規模モデルの多段階推論能力を評価するために開発された最初の長編ビデオベンチマークであり,時間的推論と手続き的妥当性を見越した既存の評価の限界に対処する。
ビデオの長さは1010本(平均1.6時間)、人間ラベル付き多段階質問応答ペア9,468本、タイムスタンプ付き推論ステップ30,292本。
これらのビデオは、プロットのコヒーレンスを優先順位付けするための専門家間レビューを含む、多段階のフィルタリングプロセスを通じてキュレートされる。
我々は,コヒーレントな推論連鎖を生成する人間とAIの協調的なフレームワークを開発し,それぞれが時間的基盤を持つステップを複数必要としており,それぞれが7つのタイプ(例えば,イベント属性,暗黙の推論)にまたがっている。
VRBenchは、結果とプロセスレベルの両方でモデルを評価するマルチフェーズ評価パイプラインを設計する。
最終結果のMCQは別として,複数次元の推論チェーンの品質を総合的に評価する,進行レベルLLM誘導評価尺度を提案する。
本研究は,VRBench上での12LLMと16VLMの広範囲な評価を通じて,多段階推論の分野を推し進める貴重な知見を提供する。
関連論文リスト
- MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - SVBench: A Benchmark with Temporal Multi-Turn Dialogues for Streaming Video Understanding [56.78088668917983]
SVBenchは時間的マルチターン質問応答チェーンを用いた先駆的ベンチマークである。
半自動アノテーションパイプラインを設計し、49,979対のQA(QA)と1,353本のストリーミングビデオを取得する。
対話とストリーミング評価の14モデルから得られた実験結果から, クローズドソースのGPT-4oは他より優れているが, 大部分のオープンソースLVLMは, 長文のストリーミングビデオ理解に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-02-15T14:29:44Z) - AVTrustBench: Assessing and Enhancing Reliability and Robustness in Audio-Visual LLMs [70.4578433679737]
我々は9つの細工されたタスクにまたがる600万のサンプルからなるAudio-Visual Trustworthiness Assessment Benchmark (AVTrustBench)を紹介する。
ベンチマークを用いて、13の最先端AVLLMを広範囲に評価した。
その結果、既存のモデルのほとんどは、人間のような理解を達成できないことが判明した。
論文 参考訳(メタデータ) (2025-01-03T23:03:24Z) - HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding [20.184894298462652]
我々は、長時間ビデオ理解モデルを評価するために、大規模な時間長ビデオベンチマークHLV-1Kを構築した。
HLV-1Kは、高品質質問応答(QA)とマルチチョイス質問応答(MCQA)を備えた1009時間ビデオからなる。
我々は,既存の最先端手法を用いてベンチマークを評価し,様々なレベルでの深層ビデオ理解能力をテストすることの価値を実証した。
論文 参考訳(メタデータ) (2025-01-03T05:32:37Z) - SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension [27.53415400454066]
生成モデルを評価するためにSEED-Benchというベンチマークを導入する。
SEED-Benchは、正確な人間のアノテーションを持つ19Kの複数の選択質問からなる。
空間的および時間的理解の両面を網羅し,全12次元にわたる18モデルの性能評価を行った。
論文 参考訳(メタデータ) (2023-07-30T04:25:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。