論文の概要: A Shortcut-aware Video-QA Benchmark for Physical Understanding via Minimal Video Pairs
- arxiv url: http://arxiv.org/abs/2506.09987v1
- Date: Wed, 11 Jun 2025 17:57:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.188109
- Title: A Shortcut-aware Video-QA Benchmark for Physical Understanding via Minimal Video Pairs
- Title(参考訳): 最小ビデオペアによる物理理解のためのショートカット対応ビデオQAベンチマーク
- Authors: Benno Krojer, Mojtaba Komeili, Candace Ross, Quentin Garrido, Koustuv Sinha, Nicolas Ballas, Mahmoud Assran,
- Abstract要約: 本稿では,ビデオ言語モデルの物理的理解を評価するための簡易なショートカット対応ビデオQAベンチマークを提案する。
このベンチマークは、55Kの高品質なマルチチョイスビデオQAの例で構成されている。
MVPの人的パフォーマンスは92.9%、最先端の最先端ビデオ言語モデルは40.2%である。
- 参考スコア(独自算出の注目度): 19.46311809796145
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing benchmarks for assessing the spatio-temporal understanding and reasoning abilities of video language models are susceptible to score inflation due to the presence of shortcut solutions based on superficial visual or textual cues. This paper mitigates the challenges in accurately assessing model performance by introducing the Minimal Video Pairs (MVP) benchmark, a simple shortcut-aware video QA benchmark for assessing the physical understanding of video language models. The benchmark is comprised of 55K high-quality multiple-choice video QA examples focusing on physical world understanding. Examples are curated from nine video data sources, spanning first-person egocentric and exocentric videos, robotic interaction data, and cognitive science intuitive physics benchmarks. To mitigate shortcut solutions that rely on superficial visual or textual cues and biases, each sample in MVP has a minimal-change pair -- a visually similar video accompanied by an identical question but an opposing answer. To answer a question correctly, a model must provide correct answers for both examples in the minimal-change pair; as such, models that solely rely on visual or textual biases would achieve below random performance. Human performance on MVP is 92.9\%, while the best open-source state-of-the-art video-language model achieves 40.2\% compared to random performance at 25\%.
- Abstract(参考訳): ビデオ言語モデルの時空間的理解と推論能力を評価するための既存のベンチマークは、表面的な視覚的・テキスト的手がかりに基づくショートカットソリューションの存在により、インフレーションを評価することができる。
本稿では,ビデオ言語モデルの物理的理解を評価するための簡易なショートカット対応ビデオQAベンチマークである Minimal Video Pairs (MVP) ベンチマークを導入することで,モデル性能を正確に評価する上での課題を緩和する。
このベンチマークは、物理世界理解に焦点を当てた高品質なマルチチョイスビデオQAの例から構成されている。
9つのビデオデータソースから、一対一のエゴセントリックでエキソセントリックなビデオ、ロボットインタラクションデータ、認知科学直感的な物理ベンチマークを対象とする。
表面的な視覚的手がかりやテキスト的バイアスに依存するショートカットソリューションを緩和するために、MVPの各サンプルには、最小限の変更ペアがある。
疑問に正しく答えるためには、モデルが最小交換ペアで両方の例に対して正しい答えを提供する必要がある。
MVPの人的パフォーマンスは92.9\%であり、最高のオープンソースビデオ言語モデルは25\%のランダムパフォーマンスに比べて40.2\%である。
関連論文リスト
- TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Lost in Time: A New Temporal Benchmark for VideoLLMs [48.71203934876828]
現在最も使われているビデオ言語ベンチマークは、時間的推論を必要とせずに解決可能であることを示す。
提案するTVBenchは,オープンソースのマルチ選択質問応答ベンチマークである。
論文 参考訳(メタデータ) (2024-10-10T09:28:36Z) - PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning [78.23573511641548]
視覚言語事前学習は、幅広い画像言語アプリケーションで性能を大幅に向上させた。
しかし、ビデオ関連タスクの事前学習プロセスは、非常に大きな計算とデータリソースを必要とする。
本稿では,映像理解のための既存の画像言語事前学習モデルに適用するための,ストレートフォワード,高効率,資源光のアプローチについて検討する。
論文 参考訳(メタデータ) (2024-04-25T19:29:55Z) - DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - Realistic Video Summarization through VISIOCITY: A New Benchmark and
Evaluation Framework [15.656965429236235]
いくつかの課題に対処することで,ビデオの自動要約をより現実的にするための一歩を踏み出した。
まず、現在利用可能なデータセットは、非常に短いビデオを持っているか、特定のタイプのビデオしか持たない。
6つのカテゴリにまたがる長いビデオからなる新しいベンチマークデータセットVISIOCITYを導入する。
論文 参考訳(メタデータ) (2020-07-29T02:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。