論文の概要: Black Swan: Abductive and Defeasible Video Reasoning in Unpredictable Events
- arxiv url: http://arxiv.org/abs/2412.05725v1
- Date: Sat, 07 Dec 2024 19:19:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:57:36.322783
- Title: Black Swan: Abductive and Defeasible Video Reasoning in Unpredictable Events
- Title(参考訳): ブラック・スワン」:予測不能な出来事を再現する動画
- Authors: Aditya Chinchure, Sahithya Ravi, Raymond Ng, Vered Shwartz, Boyang Li, Leonid Sigal,
- Abstract要約: BlackSwanSuiteは、予期しない事象を推論する視覚言語モデルの能力を評価するためのベンチマークである。
我々は,3,800以上のMCQ,4,900の生成タスク,6,700のye/noタスクからなる総合的なベンチマークスイートをキュレートした。
これらのタスクでは、人間から最大32%のパフォーマンスギャップが見られます。
- 参考スコア(独自算出の注目度): 33.51522765443546
- License:
- Abstract: The commonsense reasoning capabilities of vision-language models (VLMs), especially in abductive reasoning and defeasible reasoning, remain poorly understood. Most benchmarks focus on typical visual scenarios, making it difficult to discern whether model performance stems from keen perception and reasoning skills, or reliance on pure statistical recall. We argue that by focusing on atypical events in videos, clearer insights can be gained on the core capabilities of VLMs. Explaining and understanding such out-of-distribution events requires models to extend beyond basic pattern recognition and regurgitation of their prior knowledge. To this end, we introduce BlackSwanSuite, a benchmark for evaluating VLMs' ability to reason about unexpected events through abductive and defeasible tasks. Our tasks artificially limit the amount of visual information provided to models while questioning them about hidden unexpected events, or provide new visual information that could change an existing hypothesis about the event. We curate a comprehensive benchmark suite comprising over 3,800 MCQ, 4,900 generative and 6,700 yes/no tasks, spanning 1,655 videos. After extensively evaluating various state-of-the-art VLMs, including GPT-4o and Gemini 1.5 Pro, as well as open-source VLMs such as LLaVA-Video, we find significant performance gaps of up to 32% from humans on these tasks. Our findings reveal key limitations in current VLMs, emphasizing the need for enhanced model architectures and training strategies.
- Abstract(参考訳): 視覚言語モデル(VLM)のコモンセンス推論能力、特に帰納的推論やデファジブル推論では、未だ理解されていない。
ほとんどのベンチマークは典型的な視覚シナリオに焦点を当てており、モデルパフォーマンスが鋭い認識と推論スキルに由来するのか、純粋な統計的リコールに依存しているのかを識別することは困難である。
ビデオにおける非典型的な出来事に焦点を当てることで、VLMのコア機能に対してより明確な洞察を得ることができると論じる。
このようなアウト・オブ・ディストリビューション(out-of-distriion)イベントの説明と理解には、基本的なパターン認識や以前の知識の復活を超えてモデルを拡張する必要がある。
この目的のために,提案するBlackSwanSuiteは,帰納的かつ実現不可能なタスクを通じて,予期せぬ事象を推論するVLMの能力を評価するためのベンチマークである。
我々のタスクは、隠れた予期せぬ出来事を疑問視しながらモデルに提供された視覚情報の量を人工的に制限し、また、イベントに関する既存の仮説を変える可能性のある新しい視覚情報を提供する。
我々は,3,800以上のMCQ,4,900の生成タスク,6,700のye/noタスクからなる総合的なベンチマークスイートをキュレートした。
GPT-4oやGemini 1.5 Pro、LLaVA-VideoのようなオープンソースのVLMなど、さまざまな最先端のVLMを幅広く評価した結果、これらのタスクにおいて人間から最大32%のパフォーマンスギャップが見つかった。
我々の発見は、現在のVLMにおける重要な制限を明らかにし、強化されたモデルアーキテクチャとトレーニング戦略の必要性を強調した。
関連論文リスト
- A Benchmark for Crime Surveillance Video Analysis with Large Models [22.683394427744616]
監視ビデオにおける異常解析はコンピュータビジョンにおいて重要なトピックである。
近年,マルチモーダル大規模言語モデル (MLLM) は様々な領域においてタスク固有モデルよりも優れている。
UCVLと表記される大規模モデルを用いた犯罪監視ビデオ分析のベンチマークを提案する。
論文 参考訳(メタデータ) (2025-02-13T13:38:17Z) - LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs [103.0226977561914]
大規模言語モデルにおけるステップバイステップの視覚的推論を促進するための包括的フレームワークを提案する。
マルチステップ推論タスクの評価に特化して設計された視覚推論ベンチマークを導入する。
第二に,個々のステップの粒度で視覚的推論品質を評価する新しい指標を提案する。
第3に、マルチステップのカリキュラム学習アプローチを用いて学習したLlamaV-o1という新しいマルチモーダル視覚推論モデルを提案する。
論文 参考訳(メタデータ) (2025-01-10T18:59:51Z) - ProReason: Multi-Modal Proactive Reasoning with Decoupled Eyesight and Wisdom [42.03770972100087]
本稿ではProReasonという新しいビジュアル推論フレームワークを紹介する。
ProReasonは、マルチランプロアクティブな知覚と分離されたビジョン推論機能を備えている。
実験の結果、ProReasonは既存のマルチステップ推論フレームワークとパッシブピアメソッドの両方より優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-18T03:22:06Z) - Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models [61.899791071654654]
定量的空間的推論のために設計された5つのカテゴリに271の質問があるベンチマークQ-Spatial Benchを導入する。
本課題における最先端の視覚言語モデル(VLM)の性能について検討する。
本研究では,参照オブジェクトを視覚的手がかりとして,VLMが量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。
論文 参考訳(メタデータ) (2024-09-15T16:45:42Z) - Zero-Shot Visual Reasoning by Vision-Language Models: Benchmarking and Analysis [6.704529554100875]
視覚言語モデル(VLM)は、実世界の視覚的質問応答ベンチマークにおいて、印象的なゼロショットと少数ショットのパフォーマンスを示した。
VLMの視覚的推論性能が世界的知識によるものなのか、それとも実際の視覚的推論能力によるものなのかは不明だ。
論文 参考訳(メタデータ) (2024-08-27T14:43:54Z) - Towards Event-oriented Long Video Understanding [101.48089908037888]
Event-Benchは、既存のデータセットとヒューマンアノテーションに基づいて構築された、イベント指向の長いビデオ理解ベンチマークである。
VIMは、統合されたイベント集約型ビデオ命令を用いて、ビデオMLLMを強化するコスト効率のよい方法である。
論文 参考訳(メタデータ) (2024-06-20T09:14:19Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - How Far Are We from Intelligent Visual Deductive Reasoning? [41.4377002379162]
私たちは、より洗練されているが探求の少ない領域である、視覚に基づく誘惑的推論を掘り下げる。
現在のSOTA VLMでは、未公表の盲点が発見されている。
LLMに適用した場合に有効な標準的な戦略は、視覚的推論タスクによってもたらされる課題にシームレスに対応しないことがわかった。
論文 参考訳(メタデータ) (2024-03-07T18:35:54Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - ViLMA: A Zero-Shot Benchmark for Linguistic and Temporal Grounding in
Video-Language Models [28.305932427801682]
ViLMA(ビデオ言語モデルアセスメント)は,VidLMのきめ細かい機能を評価するタスク非依存のベンチマークである。
ViLMAは、コントロールされた評価スイートを提供し、これらのモデルの真の可能性と、人間レベルの理解と比較してパフォーマンスのギャップを浮き彫りにしている。
静止画像を用いた視覚言語モデルに比べ,現在のVidLMの接地能力は良くないことを示す。
論文 参考訳(メタデータ) (2023-11-13T02:13:13Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。