論文の概要: Stress Tests REVEAL Fragile Temporal and Visual Grounding in Video-Language Models
- arxiv url: http://arxiv.org/abs/2602.11244v1
- Date: Wed, 11 Feb 2026 17:39:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.482895
- Title: Stress Tests REVEAL Fragile Temporal and Visual Grounding in Video-Language Models
- Title(参考訳): ビデオ言語モデルにおける時間的・視覚的グラウンド化のストレステスト
- Authors: Sethuraman T, Savya Khosla, Aditi Tiwari, Vidya Ganesh, Rakshana Jayaprakash, Aditya Jain, Vignesh Srinivasakumar, Onkar Kishor Susladkar, Srinidhi Sunkara, Aditya Shanmugham, Rakesh Vaideeswaran, Abbaas Alif Mohamed Nishar, Simon Jenni, Derek Hoiem,
- Abstract要約: Video-Language Models (VidLM) は、ビデオの内容、時間的シーケンス、動きを強く説明する。
本稿では,現代Vidsの基礎的弱点を探索する診断ベンチマークREVEALを紹介する。
これらのモデルでは,映像コンテンツを無視しながら質問に回答し,虚偽の主張に同意し,基本的なカメラの動きに苦しむとともに,時間的スケーラブルな情報を収集することができない。
- 参考スコア(独自算出の注目度): 18.243585941034116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work investigates a fundamental question: Do Video-Language Models (VidLMs) robustly account for video content, temporal sequence, and motion? Our investigation shows that, surprisingly, they often do not. We introduce REVEAL{}, a diagnostic benchmark that probes fundamental weaknesses of contemporary VidLMs through five controlled stress tests; assessing temporal expectation bias, reliance on language-only shortcuts, video sycophancy, camera motion sensitivity, and robustness to spatiotemporal occlusion. We test leading open- and closed-source VidLMs and find that these models confidently describe reversed scenes as forward, answer questions while neglecting video content, agree with false claims, struggle with basic camera motion, and fail to aggregate temporal information amidst simple spatiotemporal masking. Humans, on the other hand, succeed at these tasks with ease. Alongside our benchmark, we provide a data pipeline that automatically generates diagnostic examples for our stress tests, enabling broader and more scalable evaluation. We will release our benchmark and code to support future research.
- Abstract(参考訳): ビデオ言語モデル(VidLM)は、ビデオの内容、時間的シーケンス、動きをしっかりと説明しているか?
私たちの調査では、意外なことに、彼らはそうしないことが多い。
時間的予測バイアス,言語のみのショートカットへの依存,ビデオサイコファンシー,カメラモーション感度,時空間閉塞に対するロバスト性など,5つの制御されたストレステストを通じて,現代のVidLMの基本的な弱点を調査する診断ベンチマークであるREVEAL{}を紹介する。
我々は,オープンソースおよびクローズドソースのVidLMを先進的に検証し,これらのモデルが映像コンテンツを無視しながら質問に回答し,虚偽の主張に同意し,基本的なカメラモーションと闘い,単純な時空間マスキングの中で時間情報を収集することができないことを確認した。
一方、人間は簡単にこれらのタスクを成功させる。
ベンチマークに加えて、ストレステストの診断例を自動的に生成するデータパイプラインも提供しています。
将来の研究をサポートするため、ベンチマークとコードを公開します。
関連論文リスト
- VideoSTF: Stress-Testing Output Repetition in Video Large Language Models [18.707229361658527]
我々は,ビデオLLMの出力繰り返しを系統的に測定し,ストレステストする最初のフレームワークであるVideoSTFを紹介した。
映像入力の時間的摂動に対して,出力繰り返しが広範かつ重要であり,非常に敏感であることがわかった。
この結果から,現代のビデオLLMにおける基本安定性問題としての出力繰り返しが明らかになり,映像言語システムにおける安定性を意識した評価が動機となった。
論文 参考訳(メタデータ) (2026-02-11T08:40:48Z) - Video-BrowseComp: Benchmarking Agentic Video Research on Open Web [64.53060049124961]
Video-BrowseCompは、オープンウェブのエージェントによるビデオ推論に適した210の質問からなるベンチマークである。
これは時間的視覚的証拠に必須に依存しており、回答はテキスト検索のみでは導き出せないことを保証している。
初のオープンWebビデオ調査ベンチマークとして、Video-BrowseCompは、受動的知覚を越えて、プロアクティブなビデオ推論へと分野を前進させた。
論文 参考訳(メタデータ) (2025-12-28T19:08:27Z) - Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding? [27.128582163847]
ハイスコアがビデオのダイナミックコンテンツに対するより強力な理解を示すかどうかを曖昧にする2つの大きな制限を同定する。
質問をLLM-Answerable、Semantic、Temporalの3つのドメインに分類する自動パイプラインであるVBenchCompを提案する。
論文 参考訳(メタデータ) (2025-05-20T13:07:55Z) - Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models [77.96693360763925]
Video SimpleQAは、ビデオコンテキストにおける事実性評価に適した最初の包括的なベンチマークである。
我々の研究は、既存のビデオベンチマークとは以下の重要な特徴によって異なる: 知識: ビデオの明示的な物語を超えた外部知識の統合を要求する。
短い形式の決定的な答え: 回答は、最小のスコアリング分散を持つ短いフォーマットで、曖昧で決定的に正しいものとして作成されます。
論文 参考訳(メタデータ) (2025-03-24T17:46:09Z) - On the Consistency of Video Large Language Models in Temporal Comprehension [57.985769348320616]
ビデオ大言語モデル(Video-LLMs)は、時間的に言語クエリを解析し、ビデオモーメントを検索することができる。
予測整合性 - 時間的根拠の堅牢性と信頼性を示す重要な指標である。
論文 参考訳(メタデータ) (2024-11-20T00:47:17Z) - Lost in Time: A New Temporal Benchmark for VideoLLMs [48.71203934876828]
現在最も使われているビデオ言語ベンチマークは、時間的推論を必要とせずに解決可能であることを示す。
提案するTVBenchは,オープンソースのマルチ選択質問応答ベンチマークである。
論文 参考訳(メタデータ) (2024-10-10T09:28:36Z) - Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-08T16:10:29Z) - VideoQA in the Era of LLMs: An Empirical Study [108.37456450182054]
Video Large Language Models (Video-LLMs) は盛んであり、多くのビデオ直感的なタスクを進歩させている。
本研究は,ビデオQAにおけるビデオLLMの行動に関するタイムリーかつ包括的な研究を行う。
分析の結果,ビデオ-LLMはビデオQAで優れており,文脈的手がかりを相関させ,様々な映像コンテンツに関する質問に対して妥当な応答を生成できることがわかった。
しかし、時間的コンテンツ順序の推論とQA関連時間的モーメントのグラウンド化の両方において、ビデオの時間性を扱うモデルが失敗する。
論文 参考訳(メタデータ) (2024-08-08T05:14:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。