論文の概要: Can you SPLICE it together? A Human Curated Benchmark for Probing Visual Reasoning in VLMs
- arxiv url: http://arxiv.org/abs/2509.24640v1
- Date: Mon, 29 Sep 2025 11:50:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.950129
- Title: Can you SPLICE it together? A Human Curated Benchmark for Probing Visual Reasoning in VLMs
- Title(参考訳): 組み合わせられるか? VLMにおける視覚的推論の人為的評価ベンチマーク
- Authors: Mohamad Ballout, Okajevo Wilfred, Seyedalireza Yaghoubi, Nohayr Muhammad Abdelmoneim, Julius Mayer, Elia Bruni,
- Abstract要約: SPLICEは、複数の次元にわたるイベントベースの推論を調査するために設計されたベンチマークである。
その中には、12と180のサブカテゴリ(スポーツ、エンジニアリング、家事など)にまたがる3,381本のビデオが含まれている。
我々は、これらのクリップをコヒーレントなイベントシーケンスに再構成する作業において、人間の参加者と最先端の視覚言語モデル(VLM)の両方を評価する。
- 参考スコア(独自算出の注目度): 3.6431181688181504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we introduce SPLICE, a human-curated benchmark derived from the COIN instructional video dataset, designed to probe event-based reasoning across multiple dimensions: temporal, causal, spatial, contextual, and general knowledge. SPLICE includes 3,381 human-filtered videos spanning 12 categories and 180 sub-categories, such as sports, engineering, and housework. These videos are segmented into a total of 11,423 event clips. We evaluate both human participants and state-of-the-art vision-language models (VLMs) on the task of rearranging these clips into coherent event sequences to assess visual reasoning capabilities. Results reveal a significant gap: VLMs struggle to match human performance. While human-annotated textual descriptions improve model accuracy, they do not affect human performance, suggesting that models rely more on language priors than on visual understanding. Even with annotations, VLMs fall short of human-level reasoning, underscoring persistent challenges in visual reasoning. A deeper analysis across sub-categories shows that VLMs perform relatively better on videos where temporal and causal reasoning are dominant, compared to those where contextual and spatial reasoning are dominant. They also perform better on everyday tasks than on specialized ones.
- Abstract(参考訳): 本研究では, 時間的, 因果的, 空間的, 文脈的, 一般知識の多次元にわたる事象に基づく推論を探索するために設計された, COIN 指導ビデオデータセットをベースとした人間計算型ベンチマークである SPLICE を紹介する。
SPLICEには、12のカテゴリーにまたがる3,381の人間フィルター付きビデオと、スポーツ、エンジニアリング、家事などの180のサブカテゴリが含まれている。
これらのビデオは、合計11,423のイベントクリップに区切られている。
我々は、これらのクリップをコヒーレントなイベントシーケンスに再構成し、視覚的推論能力を評価するタスクにおいて、人間の参加者と最先端の視覚言語モデル(VLM)の両方を評価する。
VLMは人間のパフォーマンスに合わせるのに苦労しています。
人間の注釈付きテキスト記述はモデルの精度を改善するが、それは人間のパフォーマンスに影響を与えず、モデルが視覚的理解よりも言語優先に依存していることを示唆している。
アノテーションでさえ、VLMは人間のレベルでの推論に欠けており、視覚的推論における永続的な課題を暗示している。
サブカテゴリ間のより深い分析は、VLMが時間的・因果的推論が支配的なビデオにおいて、文脈的・空間的推論が支配的なビデオよりも、相対的に優れていることを示している。
日常的な作業でも、専門的な作業よりも優れています。
関連論文リスト
- GLIMPSE: Do Large Vision-Language Models Truly Think With Videos or Just Glimpse at Them? [76.67205289006795]
GLIMPSEは3,269本のビデオと、11のカテゴリで4,342本以上の視覚中心の質問で構成されている。
すべての質問は、人間のアノテータによって慎重に作成され、ビデオ全体を見て、完全なビデオコンテキストを推論する必要がある。
ヒトの評価では、GLIMPSEは94.82%の精度を達成しているが、現在のLVLMは重大な課題に直面している。
論文 参考訳(メタデータ) (2025-07-13T04:44:57Z) - HV-MMBench: Benchmarking MLLMs for Human-Centric Video Understanding [79.06209664703258]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。
既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。
我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-07T11:52:24Z) - Fostering Video Reasoning via Next-Event Prediction [61.70045315542766]
我々は,将来的なビデオセグメントを,時間的推論を促進するためのリッチで自己指導的な信号として活用する学習タスクとして,次世代予測(NEP)を提案する。
このタスクを支援するために,V1-33Kという,多様な実世界のシナリオにまたがる33,000のビデオセグメントを自動抽出したデータセットをキュレートする。
NEPはMLLMの時間的推論を促進するためのスケーラブルで効果的なトレーニングパラダイムを提供する。
論文 参考訳(メタデータ) (2025-05-28T15:13:34Z) - Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning? [56.06537213958482]
本稿では,MLLMの複雑なビデオ推論能力を評価するためのベンチマークであるVideo-Holmesを紹介する。
Video-Holmesは270本の手動注釈付きサスペンス短編映画から1,837の質問で構成されている。
最新のMLLMを包括的に評価した結果,これらのモデルは視覚的知覚に優れるが,情報の統合にはかなりの困難が伴うことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-27T16:05:01Z) - HiERO: understanding the hierarchy of human behavior enhances reasoning on egocentric videos [2.6749843984691672]
ビデオセグメントの特徴を階層的なアクティビティスレッドで拡張する弱い教師付き手法であるHiEROを提案する。
ビデオクリップをナレーション付き記述に合わせることで、HiEROはコンテキスト的、意味的、時間的推論を階層的アーキテクチャで推論する。
論文 参考訳(メタデータ) (2025-05-19T09:47:41Z) - Black Swan: Abductive and Defeasible Video Reasoning in Unpredictable Events [33.51522765443546]
BlackSwanSuiteは、予期しない事象を推論する視覚言語モデルの能力を評価するためのベンチマークである。
我々は,3,800 MCQ,4,900 生成,6,700 のイエス/ノー質問からなる総合的なベンチマークスイートを1,655 本の動画にまとめてキュレートする。
これらのタスクでは、人間から最大32%のパフォーマンスギャップが見られます。
論文 参考訳(メタデータ) (2024-12-07T19:19:03Z) - FIOVA: A Multi-Annotator Benchmark for Human-Aligned Video Captioning [15.363132825156477]
大規模視覚言語モデル(LVLM)の評価に適した人中心ベンチマークであるFIOVAを紹介する。
実際のビデオは3,002本(それぞれ33.6本)で、それぞれが5つのアノテーションによって独立して注釈付けされている。
本稿では,アノテータのコンセンサスから得られる認知重みを組み込んだ事象レベルの評価指標であるFIOVA-DQを提案する。
論文 参考訳(メタデータ) (2024-10-20T03:59:54Z) - Zero-Shot Visual Reasoning by Vision-Language Models: Benchmarking and Analysis [6.704529554100875]
視覚言語モデル(VLM)は、実世界の視覚的質問応答ベンチマークにおいて、印象的なゼロショットと少数ショットのパフォーマンスを示した。
VLMの視覚的推論性能が世界的知識によるものなのか、それとも実際の視覚的推論能力によるものなのかは不明だ。
論文 参考訳(メタデータ) (2024-08-27T14:43:54Z) - Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies [69.28082193942991]
本稿では、これまで見過ごされていた2つの重要なビデオ推論スキルを探索するためのテストベッドとして設計された、新しいデータセットであるTropes in Movies (TiM)を紹介する。
映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。
これらの欠陥に対処するために、FEVoRI(Face-Enhanced Viper of Role Interactions)とConQueR(Context Query Reduction)を提案する。
論文 参考訳(メタデータ) (2024-06-16T12:58:31Z) - VELOCITI: Benchmarking Video-Language Compositional Reasoning with Strict Entailment [19.313541287648473]
VELOCITI(VELOCITI)は,エージェントの理解を解き明かし,評価することで,ビデオLLMを研究するためのベンチマークである。
我々は,ビデオ・ランゲージ・エンターメント・セットアップを採用し,正と負のキャプションの正確な分類(ランキングではなく)を必要とするStrictVLEを提案する。
その結果、アクション理解のラグや、ビデオに現れるエンティティを使って生成された否定的なキャプションは、純粋なテキスト操作で得られたものよりも悪い結果が得られた。
論文 参考訳(メタデータ) (2024-06-16T10:42:21Z) - NaQ: Leveraging Narrations as Queries to Supervise Episodic Memory [92.98552727430483]
Narrations-as-Queries (NaQ)は、標準的なビデオテキストナレーションをビデオクエリのローカライゼーションモデルのためのトレーニングデータに変換するデータ拡張戦略である。
NaQが複数のトップモデルを大幅に改善(精度を2倍に)
また、ゼロショットおよび少数ショットNLQの実行能力や、ロングテールオブジェクトカテゴリに関するクエリのパフォーマンス向上など、このアプローチのユニークな特性も示す。
論文 参考訳(メタデータ) (2023-01-02T16:40:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。