論文の概要: Towards Video Thinking Test: A Holistic Benchmark for Advanced Video Reasoning and Understanding
- arxiv url: http://arxiv.org/abs/2507.15028v1
- Date: Sun, 20 Jul 2025 16:30:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.16507
- Title: Towards Video Thinking Test: A Holistic Benchmark for Advanced Video Reasoning and Understanding
- Title(参考訳): ビデオ思考テストに向けて: 高度なビデオ推論と理解のためのホロスティックベンチマーク
- Authors: Yuanhan Zhang, Yunice Chew, Yuhao Dong, Aria Leo, Bo Hu, Ziwei Liu,
- Abstract要約: 我々は,ビデオ思考テスト(Video Thinking Test, Video-TT)を導入し,ビデオ大言語モデル(ビデオLLM)が実世界の動画を人間と同じくらい効果的に解釈できるかどうかを評価する。
Video-TTは複雑な視覚的物語の理解における真のギャップを反映し、自然な敵対的質問に対する堅牢性を評価する。
評価の結果,ビデオLLMと人的パフォーマンスの差は顕著であった。
- 参考スコア(独自算出の注目度): 39.41651859086456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human intelligence requires correctness and robustness, with the former being foundational for the latter. In video understanding, correctness ensures the accurate interpretation of visual content, and robustness maintains consistent performance in challenging conditions. Despite advances in video large language models (video LLMs), existing benchmarks inadequately reflect the gap between these models and human intelligence in maintaining correctness and robustness in video interpretation. We introduce the Video Thinking Test (Video-TT), to assess if video LLMs can interpret real-world videos as effectively as humans. Video-TT reflects genuine gaps in understanding complex visual narratives, and evaluates robustness against natural adversarial questions. Video-TT comprises 1,000 YouTube Shorts videos, each with one open-ended question and four adversarial questions that probe visual and narrative complexity. Our evaluation shows a significant gap between video LLMs and human performance.
- Abstract(参考訳): 人間の知性は正確さと堅牢さを必要とし、前者は後者の基礎となる。
映像理解においては、正確さは視覚的内容の正確な解釈を確実にし、頑健さは困難な条件下で一貫した性能を維持する。
ビデオ大言語モデル(ビデオLLM)の進歩にもかかわらず、既存のベンチマークは、ビデオ解釈における正確性と堅牢性を維持するために、これらのモデルと人間の知性の間のギャップを十分に反映していない。
我々は,ビデオ思考テスト(Video Thinking Test, Video-TT)を導入し,実世界の映像を人間と同じくらい効果的に解釈できるかを評価する。
Video-TTは複雑な視覚的物語の理解における真のギャップを反映し、自然な敵対的質問に対する堅牢性を評価する。
Video-TTは1000本のYouTube Shortsビデオで構成され、それぞれ1つのオープンエンドの質問と、視覚と物語の複雑さを調査する4つの敵の質問がある。
評価の結果,ビデオLLMと人的パフォーマンスの差が顕著であった。
関連論文リスト
- Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning [29.811030252357195]
マルチモーダル大言語モデル(MLLM)は、ビデオ質問応答や時間的接地といった下流タスクに不可欠である。
本稿では,ツール・アグリゲード・ラーニング(VITAL)による映像インテリジェンスを提案する。
論文 参考訳(メタデータ) (2025-08-06T13:03:21Z) - GLIMPSE: Do Large Vision-Language Models Truly Think With Videos or Just Glimpse at Them? [76.67205289006795]
GLIMPSEは3,269本のビデオと、11のカテゴリで4,342本以上の視覚中心の質問で構成されている。
すべての質問は、人間のアノテータによって慎重に作成され、ビデオ全体を見て、完全なビデオコンテキストを推論する必要がある。
ヒトの評価では、GLIMPSEは94.82%の精度を達成しているが、現在のLVLMは重大な課題に直面している。
論文 参考訳(メタデータ) (2025-07-13T04:44:57Z) - VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM [81.15525024145697]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は近年, 一般的なビデオ理解において顕著な能力を示した。
しかし、それらは主に全体論的理解に焦点を当て、きめ細かい空間的・時間的詳細を捉えるのに苦労している。
我々は,高精細度空間時間映像理解のためのビデオLLMを実現するために,VideoRefer Suiteを導入した。
論文 参考訳(メタデータ) (2024-12-31T18:56:46Z) - VideoCogQA: A Controllable Benchmark for Evaluating Cognitive Abilities in Video-Language Models [19.215440092652507]
LVLM(Large Video-Language Models)は、マルチモーダルビデオ理解において有望な結果をもたらす。
これらのモデルが高レベルのタスクに必要な認知能力を持っているか、特に象徴的、抽象的な知覚にかかわっているかは不明だ。
ゲーム環境にインスパイアされたスケーラブルで完全に制御可能なベンチマークであるVideoCogQAを提案する。
プログラムエンジンを介して合成ビデオを生成することで、VideoCogQAは視覚要素、時間的ダイナミクス、タスクの難しさを細かく制御できる。
論文 参考訳(メタデータ) (2024-11-14T00:26:26Z) - FIOVA: A Multi-Annotator Benchmark for Human-Aligned Video Captioning [15.363132825156477]
大規模視覚言語モデル(LVLM)の評価に適した人中心ベンチマークであるFIOVAを紹介する。
実際のビデオは3,002本(それぞれ33.6本)で、それぞれが5つのアノテーションによって独立して注釈付けされている。
本稿では,アノテータのコンセンサスから得られる認知重みを組み込んだ事象レベルの評価指標であるFIOVA-DQを提案する。
論文 参考訳(メタデータ) (2024-10-20T03:59:54Z) - VideoQA in the Era of LLMs: An Empirical Study [108.37456450182054]
Video Large Language Models (Video-LLMs) は盛んであり、多くのビデオ直感的なタスクを進歩させている。
本研究は,ビデオQAにおけるビデオLLMの行動に関するタイムリーかつ包括的な研究を行う。
分析の結果,ビデオ-LLMはビデオQAで優れており,文脈的手がかりを相関させ,様々な映像コンテンツに関する質問に対して妥当な応答を生成できることがわかった。
しかし、時間的コンテンツ順序の推論とQA関連時間的モーメントのグラウンド化の両方において、ビデオの時間性を扱うモデルが失敗する。
論文 参考訳(メタデータ) (2024-08-08T05:14:07Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - Long Video Understanding with Learnable Retrieval in Video-Language Models [36.793956806567834]
本稿では,学習可能な検索ベースビデオ言語モデル(R-VLM)を提案する。
具体的には、質問(クエリ)と長いビデオから、我々のモデルは最も関連性の高いKビデオチャンクを特定し、選択する。
これにより、ビデオトークンの数を効果的に減らし、ノイズ干渉をなくし、システム性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-08T09:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。