論文の概要: PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning
- arxiv url: http://arxiv.org/abs/2603.26653v1
- Date: Fri, 27 Mar 2026 17:54:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.628228
- Title: PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning
- Title(参考訳): PerceptionComp: 複雑な知覚中心推論のためのビデオベンチマーク
- Authors: Shaoxuan Li, Zhixuan Zhao, Hanze Deng, Zirun Ma, Shulin Tian, Zuyan Liu, Yushi Hu, Haoning Wu, Yuhao Dong, Benlin Liu, Ziwei Liu, Ranjay Krishna,
- Abstract要約: 本稿では,知覚中心のビデオ推論のベンチマークであるPerceptionCompを紹介する。
ベンチマークには、さまざまなドメインの279のビデオに関する1,114の非常に複雑な質問が含まれている。
人間の研究によると、PerceptionCompは、かなりのテスト時間思考と繰り返し知覚ステップを必要とする。
- 参考スコア(独自算出の注目度): 63.52215283384644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce PerceptionComp, a manually annotated benchmark for complex, long-horizon, perception-centric video reasoning. PerceptionComp is designed so that no single moment is sufficient: answering each question requires multiple temporally separated pieces of visual evidence and compositional constraints under conjunctive and sequential logic, spanning perceptual subtasks such as objects, attributes, relations, locations, actions, and events, and requiring skills including semantic recognition, visual correspondence, temporal reasoning, and spatial reasoning. The benchmark contains 1,114 highly complex questions on 279 videos from diverse domains including city walk tours, indoor villa tours, video games, and extreme outdoor sports, with 100% manual annotation. Human studies show that PerceptionComp requires substantial test-time thinking and repeated perception steps: participants take much longer than on prior benchmarks, and accuracy drops to near chance (18.97%) when rewatching is disallowed. State-of-the-art MLLMs also perform substantially worse on PerceptionComp than on existing benchmarks: the best model in our evaluation, Gemini-3-Flash, reaches only 45.96% accuracy in the five-choice setting, while open-source models remain below 40%. These results suggest that perception-centric long-horizon video reasoning remains a major bottleneck, and we hope PerceptionComp will help drive progress in perceptual reasoning.
- Abstract(参考訳): 複雑な、長い水平、知覚中心のビデオ推論のための手動注釈付きベンチマークであるPerceptionCompを紹介する。
パーセプションコンプリートは、各質問に答えるには、複数の時間的に分離された視覚的エビデンスと構成的制約、オブジェクト、属性、関係、場所、行動、イベントなどの知覚的サブタスク、意味認識、視覚的対応、時間的推論、空間的推論といったスキルを必要とする。
このベンチマークには、都市ウォークツアー、屋内ヴィラツアー、ビデオゲーム、エクストリームアウトドアスポーツなど、さまざまな領域の279の動画に関する1,114の非常に複雑な質問が含まれている。
人間の研究では、PerceptionCompはテストタイムの思考と繰り返しの知覚ステップを必要とすることが示されており、参加者は以前のベンチマークよりもはるかに時間がかかり、再視聴が許可されない場合には精度がほぼ低下する(18.97%)。
私たちの評価で最高のモデルであるGemini-3-Flashは5チョイス設定で45.96%の精度にしか達せず、オープンソースモデルは40%以下にとどまっている。
これらの結果は、知覚中心の長距離ビデオ推論が依然として大きなボトルネックであり、PerceptionCompが知覚的推論の進歩を促進することを願っていることを示唆している。
関連論文リスト
- MMSI-Video-Bench: A Holistic Benchmark for Video-Based Spatial Intelligence [61.065486539729875]
MMSI-Video-Bench(MMSI-Video-Bench)は、MLLMにおけるビデオベースの空間知能の完全な人為的なベンチマークである。
4段階のフレームワークである知覚、計画、予測、クロスビデオ推論を運用しており、1,278のクリップで1,106の質問を下敷きにしている。
オープンソースとプロプライエタリなMLLMを25種類評価し,AIギャップが顕著であることを明らかにした。
論文 参考訳(メタデータ) (2025-12-11T17:57:24Z) - HumanVideo-MME: Benchmarking MLLMs for Human-Centric Video Understanding [120.84817886550765]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。
既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。
我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-07T11:52:24Z) - ImplicitQA: Going beyond frames towards Implicit Video Reasoning [39.63171940350552]
ImplicitQAは、人間のような暗黙の推論でビデオQAモデルをテストするために設計された新しいベンチマークである。
ImplicitQAは、1Kの高品質なクリエイティビティビデオクリップから引き出された1Kの微妙な注釈付きQAペアからなる。
論文 参考訳(メタデータ) (2025-06-26T19:53:54Z) - VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos [89.39873803375498]
VideoMathQAは、ビデオ上で時間的に拡張されたクロスモーダル推論を実行できるかどうかを評価するために設計されたベンチマークである。
ベンチマークは10種類の数学的領域にまたがっており、ビデオは10秒から1時間以上に及ぶ。
構造化された視覚的コンテンツを解釈し、指導的物語を理解し、視覚的、音声的、テキスト的モダリティにまたがる共同概念を理解するためのモデルが必要である。
論文 参考訳(メタデータ) (2025-06-05T17:59:58Z) - VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning? [18.9270920369958]
ロングチェーン・オブ・思想(CoT)推論は、複雑なタスクにおける大規模言語モデル(LLM)の性能を大幅に向上させることができる。
近年の取り組みでは、ビデオ推論を目的としたベンチマークが提案されているが、タスクは知識駆動であり、視覚コンテンツにはあまり依存していないことが多い。
視覚中心の複雑なビデオ推論を評価するためのベンチマークであるVideoReasonBenchを紹介する。
論文 参考訳(メタデータ) (2025-05-29T11:33:43Z) - Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning? [56.06537213958482]
本稿では,MLLMの複雑なビデオ推論能力を評価するためのベンチマークであるVideo-Holmesを紹介する。
Video-Holmesは270本の手動注釈付きサスペンス短編映画から1,837の質問で構成されている。
最新のMLLMを包括的に評価した結果,これらのモデルは視覚的知覚に優れるが,情報の統合にはかなりの困難が伴うことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-27T16:05:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。