論文の概要: GLIMPSE: Do Large Vision-Language Models Truly Think With Videos or Just Glimpse at Them?
- arxiv url: http://arxiv.org/abs/2507.09491v1
- Date: Sun, 13 Jul 2025 04:44:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.35966
- Title: GLIMPSE: Do Large Vision-Language Models Truly Think With Videos or Just Glimpse at Them?
- Title(参考訳): GLIMPSE:大きめのヴィジュアル・ランゲージ・モデルはビデオで真に考えるのか、それともただのGlimpseか?
- Authors: Yiyang Zhou, Linjie Li, Shi Qiu, Zhengyuan Yang, Yuyang Zhao, Siwei Han, Yangfan He, Kangqi Li, Haonian Ji, Zihao Zhao, Haibo Tong, Lijuan Wang, Huaxiu Yao,
- Abstract要約: GLIMPSEは3,269本のビデオと、11のカテゴリで4,342本以上の視覚中心の質問で構成されている。
すべての質問は、人間のアノテータによって慎重に作成され、ビデオ全体を見て、完全なビデオコンテキストを推論する必要がある。
ヒトの評価では、GLIMPSEは94.82%の精度を達成しているが、現在のLVLMは重大な課題に直面している。
- 参考スコア(独自算出の注目度): 76.67205289006795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing video benchmarks often resemble image-based benchmarks, with question types like "What actions does the person perform throughout the video?" or "What color is the woman's dress in the video?" For these, models can often answer by scanning just a few key frames, without deep temporal reasoning. This limits our ability to assess whether large vision-language models (LVLMs) can truly think with videos rather than perform superficial frame-level analysis. To address this, we introduce GLIMPSE, a benchmark specifically designed to evaluate whether LVLMs can genuinely think with videos. Unlike prior benchmarks, GLIMPSE emphasizes comprehensive video understanding beyond static image cues. It consists of 3,269 videos and over 4,342 highly visual-centric questions across 11 categories, including Trajectory Analysis, Temporal Reasoning, and Forensics Detection. All questions are carefully crafted by human annotators and require watching the entire video and reasoning over full video context-this is what we mean by thinking with video. These questions cannot be answered by scanning selected frames or relying on text alone. In human evaluations, GLIMPSE achieves 94.82% accuracy, but current LVLMs face significant challenges. Even the best-performing model, GPT-o3, reaches only 66.43%, highlighting that LVLMs still struggle to move beyond surface-level reasoning to truly think with videos.
- Abstract(参考訳): 既存のビデオベンチマークはイメージベースのベンチマークによく似ており、質問タイプは"ビデオ全体を通してその人が実行するアクションは何か?"、"ビデオ内の女性のドレスは何色か?"などである。
これらのモデルでは,時間的推論を深く必要とせずに,数個のキーフレームをスキャンすることで,答が得られます。
これにより、表面的なフレームレベル解析を行うのではなく、ビデオで大きな視覚言語モデル(LVLM)が真に考えることができるかどうかを評価する能力が制限される。
そこで本研究では,ビデオでLVLMが真に考えることができるかどうかを評価するためのベンチマークであるGLIMPSEを紹介する。
以前のベンチマークとは異なり、GLIMPSEは静的画像キュー以外の包括的なビデオ理解を強調している。
ビデオは3,269本と、トラジェクティブ分析、テンポラル推論、Forensics Detectionなど、11のカテゴリで4,342本以上の視覚中心の質問で構成されている。
すべての質問は、人間のアノテータによって慎重に作成され、ビデオ全体を見て、完全なビデオコンテキストを推論する必要がある。
これらの質問は、選択したフレームをスキャンしたり、テキストのみに依存することで答えることはできない。
ヒトの評価では、GLIMPSEは94.82%の精度を達成しているが、現在のLVLMは重大な課題に直面している。
最高のパフォーマンスモデルであるGPT-o3でさえ66.43%にしか達せず、LVLMはビデオで真に考えるために表面レベルの推論を超えることに苦戦している。
関連論文リスト
- Towards Video Thinking Test: A Holistic Benchmark for Advanced Video Reasoning and Understanding [39.41651859086456]
我々は,ビデオ思考テスト(Video Thinking Test, Video-TT)を導入し,ビデオ大言語モデル(ビデオLLM)が実世界の動画を人間と同じくらい効果的に解釈できるかどうかを評価する。
Video-TTは複雑な視覚的物語の理解における真のギャップを反映し、自然な敵対的質問に対する堅牢性を評価する。
評価の結果,ビデオLLMと人的パフォーマンスの差は顕著であった。
論文 参考訳(メタデータ) (2025-07-20T16:30:33Z) - Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning? [56.06537213958482]
本稿では,MLLMの複雑なビデオ推論能力を評価するためのベンチマークであるVideo-Holmesを紹介する。
Video-Holmesは270本の手動注釈付きサスペンス短編映画から1,837の質問で構成されている。
最新のMLLMを包括的に評価した結果,これらのモデルは視覚的知覚に優れるが,情報の統合にはかなりの困難が伴うことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-27T16:05:01Z) - Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding? [27.128582163847]
ハイスコアがビデオのダイナミックコンテンツに対するより強力な理解を示すかどうかを曖昧にする2つの大きな制限を同定する。
質問をLLM-Answerable、Semantic、Temporalの3つのドメインに分類する自動パイプラインであるVBenchCompを提案する。
論文 参考訳(メタデータ) (2025-05-20T13:07:55Z) - CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding [43.858197893052115]
CG-Benchは、長いビデオのヒント付き質問応答のための新しいベンチマークである。
14の一次カテゴリ、171の二次カテゴリ、638の第三カテゴリからなる粒度のシステムで、1,219の動画を手作業でキュレートする。
このベンチマークには、知覚、推論、幻覚という3つの主要な質問タイプに12,129のQAペアが含まれている。
論文 参考訳(メタデータ) (2024-12-16T18:46:45Z) - VideoQA in the Era of LLMs: An Empirical Study [108.37456450182054]
Video Large Language Models (Video-LLMs) は盛んであり、多くのビデオ直感的なタスクを進歩させている。
本研究は,ビデオQAにおけるビデオLLMの行動に関するタイムリーかつ包括的な研究を行う。
分析の結果,ビデオ-LLMはビデオQAで優れており,文脈的手がかりを相関させ,様々な映像コンテンツに関する質問に対して妥当な応答を生成できることがわかった。
しかし、時間的コンテンツ順序の推論とQA関連時間的モーメントのグラウンド化の両方において、ビデオの時間性を扱うモデルが失敗する。
論文 参考訳(メタデータ) (2024-08-08T05:14:07Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - VELOCITI: Benchmarking Video-Language Compositional Reasoning with Strict Entailment [19.313541287648473]
VELOCITI(VELOCITI)は,エージェントの理解を解き明かし,評価することで,ビデオLLMを研究するためのベンチマークである。
我々は,ビデオ・ランゲージ・エンターメント・セットアップを採用し,正と負のキャプションの正確な分類(ランキングではなく)を必要とするStrictVLEを提案する。
その結果、アクション理解のラグや、ビデオに現れるエンティティを使って生成された否定的なキャプションは、純粋なテキスト操作で得られたものよりも悪い結果が得られた。
論文 参考訳(メタデータ) (2024-06-16T10:42:21Z) - VideoPrism: A Foundational Visual Encoder for Video Understanding [90.01845485201746]
VideoPrismは、単一の凍結モデルで多様なビデオ理解タスクに取り組む汎用ビデオエンコーダである。
我々は,36Mの高品質ビデオキャプチャ対と582Mの動画クリップを含む異種コーパス上で,VoicePrismを事前訓練した。
我々は、Webビデオ質問応答から科学用CVまで、ビデオ理解タスクの4つのグループでビデオPrismを広範囲にテストし、33の動画理解ベンチマークのうち31で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-02-20T18:29:49Z) - FunQA: Towards Surprising Video Comprehension [64.58663825184958]
本稿では,挑戦的なビデオ質問応答データセットであるFunQAを紹介する。
FunQAはHumorQA、CreativeQA、MagicQAの3種類の驚くべきビデオをカバーしている。
FunQAベンチマークは4.3Kビデオクリップから派生した312KのフリーテキストQAペアで構成されている。
論文 参考訳(メタデータ) (2023-06-26T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。