論文の概要: VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?
- arxiv url: http://arxiv.org/abs/2505.23359v1
- Date: Thu, 29 May 2025 11:33:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.833494
- Title: VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?
- Title(参考訳): VideoReasonBench:MLLMは視覚中心の複雑なビデオ推論を実現できるか?
- Authors: Yuanxin Liu, Kun Ouyang, Haoning Wu, Yi Liu, Lin Sui, Xinhao Li, Yan Zhong, Y. Charles, Xinyu Zhou, Xu Sun,
- Abstract要約: ロングチェーン・オブ・思想(CoT)推論は、複雑なタスクにおける大規模言語モデル(LLM)の性能を大幅に向上させることができる。
近年の取り組みでは、ビデオ推論を目的としたベンチマークが提案されているが、タスクは知識駆動であり、視覚コンテンツにはあまり依存していないことが多い。
視覚中心の複雑なビデオ推論を評価するためのベンチマークであるVideoReasonBenchを紹介する。
- 参考スコア(独自算出の注目度): 18.9270920369958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have shown that long chain-of-thought (CoT) reasoning can significantly enhance the performance of large language models (LLMs) on complex tasks. However, this benefit is yet to be demonstrated in the domain of video understanding, since most existing benchmarks lack the reasoning depth required to demonstrate the advantages of extended CoT chains. While recent efforts have proposed benchmarks aimed at video reasoning, the tasks are often knowledge-driven and do not rely heavily on visual content. To bridge this gap, we introduce VideoReasonBench, a benchmark designed to evaluate vision-centric, complex video reasoning. To ensure visual richness and high reasoning complexity, each video in VideoReasonBench depicts a sequence of fine-grained operations on a latent state that is only visible in part of the video. The questions evaluate three escalating levels of video reasoning skills: recalling observed visual information, inferring the content of latent states, and predicting information beyond the video. Under such task setting, models have to precisely recall multiple operations in the video, and perform step-by-step reasoning to get correct final answers for these questions. Using VideoReasonBench, we comprehensively evaluate 18 state-of-the-art multimodal LLMs (MLLMs), finding that most perform poorly on complex video reasoning, e.g., GPT-4o achieves only 6.9% accuracy, while the thinking-enhanced Gemini-2.5-Pro significantly outperforms others with 56.0% accuracy. Our investigations on "test-time scaling" further reveal that extended thinking budget, while offering none or minimal benefits on existing video benchmarks, is essential for improving the performance on VideoReasonBench.
- Abstract(参考訳): 近年の研究では、長いチェーン・オブ・シークレット(CoT)推論が、複雑なタスクにおける大規模言語モデル(LLM)の性能を大幅に向上させることが示されている。
しかし、ほとんどの既存のベンチマークでは、拡張CoTチェーンの利点を示すのに必要な推論の深さが欠けているため、ビデオ理解の領域では、この利点はまだ実証されていない。
近年の取り組みでは、ビデオ推論を目的としたベンチマークが提案されているが、これらのタスクは知識駆動であり、ビジュアルコンテンツに大きく依存していないことが多い。
このギャップを埋めるために、視覚中心の複雑なビデオ推論を評価するために設計されたベンチマークであるVideoReasonBenchを紹介する。
視覚的豊かさと高い推論の複雑さを保証するために、VideoReasonBenchの各ビデオは、ビデオの一部でしか見えない潜伏状態の細かな操作のシーケンスを描いている。
これらの質問は、観察された視覚情報をリコールし、潜伏状態の内容を推測し、ビデオを超えて情報を予測する3つのレベルのビデオ推論スキルを評価する。
このようなタスク設定の下では、モデルはビデオ内の複数の操作を正確にリコールし、これらの質問に対して正しい最終回答を得るためにステップバイステップの推論を行う必要がある。
VideoReasonBenchを用いて18の最先端マルチモーダルLCM(MLLMs)を包括的に評価し、複雑なビデオ推論において、GPT-4oは6.9%の精度しか達成できないのに対して、Gemini-2.5-Proは56.0%の精度で他より大幅に優れていたことを発見した。
テストタイムスケーリング”に関する調査では,既存のビデオベンチマークに何のメリットも最小限のメリットも提供しながら,ビデオReasonBenchのパフォーマンス向上には不可欠であることを,さらに明らかにしています。
関連論文リスト
- Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning? [56.06537213958482]
本稿では,MLLMの複雑なビデオ推論能力を評価するためのベンチマークであるVideo-Holmesを紹介する。
Video-Holmesは270本の手動注釈付きサスペンス短編映画から1,837の質問で構成されている。
最新のMLLMを包括的に評価した結果,これらのモデルは視覚的知覚に優れるが,情報の統合にはかなりの困難が伴うことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-27T16:05:01Z) - SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models [80.3895950009792]
ビデオにおけるきめ細かい時間的理解の獲得は、現在のビデオ大マルチモデル(ビデオLMM)にとって大きな課題である。
私たちは、データセット、モデル、ベンチマークの3つの中核的な側面に貢献しています。
まず,ビデオ理解,グラウンドニング,マルチターンビデオチャットの共用学習を実現するため、15Kビデオからなる大規模データセットであるSAMA-239Kを紹介する。
第2に,広義の時間的コンテキストアグリゲータとセグメンションモデルを組み合わせたSAMAモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T18:13:16Z) - video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model [33.70837005629285]
一般的なビデオ理解タスク用に設計された,初のオープンソース推論拡張型音声視覚LLMである video-SALMONN-o1 を提案する。
我々は,ステップバイステップのソリューションを用いて,音声視覚問題に挑戦する推論集約型データセットを開発した。
また、RivaBenchは、最初の推論集約型ビデオ理解ベンチマークであり、4000以上の高品質で専門家による質問応答ペアを備えている。
論文 参考訳(メタデータ) (2025-02-17T13:07:40Z) - SCBench: A Sports Commentary Benchmark for Video LLMs [19.13963551534595]
我々は,ビデオ大言語モデル(ビデオLLM)のためのスポーツビデオ解説生成のためのベンチマークを開発する。
$textbfSCBench$はタスク用に特別に設計された6次元計量であり、GPTに基づく評価手法を提案する。
結果,InternVL-Chat-2は5.44で最高の性能を示し,1.04で2位となった。
論文 参考訳(メタデータ) (2024-12-23T15:13:56Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding [57.630136434038384]
E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark)は、イベントレベルのオープンな理解のための大規模ベンチマークである。
ベンチマークでは,8つの画像-LLMと12個のビデオ-LLMを広範囲に評価し,その結果から,粗い(ビデオレベル)理解のための最先端モデルが,きめ細かなタスクの解決に苦慮していることが判明した。
私たちのシンプルだが効果的なソリューションは、複数のシナリオで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-09-26T17:53:04Z) - LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9477837230283]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。
私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。
我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文 参考訳(メタデータ) (2024-07-22T16:00:55Z) - VideoVista: A Versatile Benchmark for Video Understanding and Reasoning [46.838692817107116]
さまざまなコンテンツカテゴリ、期間、能力の課題を統合するビデオQAベンチマークであるVideoVistaを紹介します。
VideoVistaは、14のカテゴリー(例えば、ハウト、フィルム、エンターテイメント)にまたがる3,400本のビデオから、25,000の質問で構成されており、期間は数秒から10分以上である。
19種類の理解タスク(例:異常検出、相互作用理解)と8つの推論タスク(例:論理推論、因果推論)を含んでいる。
論文 参考訳(メタデータ) (2024-06-17T08:09:00Z) - VELOCITI: Benchmarking Video-Language Compositional Reasoning with Strict Entailment [19.313541287648473]
VELOCITI(VELOCITI)は,エージェントの理解を解き明かし,評価することで,ビデオLLMを研究するためのベンチマークである。
我々は,ビデオ・ランゲージ・エンターメント・セットアップを採用し,正と負のキャプションの正確な分類(ランキングではなく)を必要とするStrictVLEを提案する。
その結果、アクション理解のラグや、ビデオに現れるエンティティを使って生成された否定的なキャプションは、純粋なテキスト操作で得られたものよりも悪い結果が得られた。
論文 参考訳(メタデータ) (2024-06-16T10:42:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。