論文の概要: Time Blindness: Why Video-Language Models Can't See What Humans Can?
- arxiv url: http://arxiv.org/abs/2505.24867v1
- Date: Fri, 30 May 2025 17:59:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.126539
- Title: Time Blindness: Why Video-Language Models Can't See What Humans Can?
- Title(参考訳): タイムブラインド:ビデオ言語モデルが人間に何ができるかわからない理由
- Authors: Ujjwal Upadhyay, Mukul Ranjan, Zhiqiang Shen, Mohamed Elhoseiny,
- Abstract要約: 我々は、ノイズのようなフレームの時間的シーケンスにのみ情報を格納するベンチマークである$bfSpookyBenchを紹介した。
人間は98%以上の精度でこれらのシーケンスの形状、テキスト、パターンを認識できるが、最先端の視覚言語モデルは0%の精度を達成する。
この性能ギャップは、フレームレベルの空間的特徴に対する過度な信頼と、時間的手がかりから意味を抽出できないという、限界を浮き彫りにする。
- 参考スコア(独自算出の注目度): 48.653937503646375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in vision-language models (VLMs) have made impressive strides in understanding spatio-temporal relationships in videos. However, when spatial information is obscured, these models struggle to capture purely temporal patterns. We introduce $\textbf{SpookyBench}$, a benchmark where information is encoded solely in temporal sequences of noise-like frames, mirroring natural phenomena from biological signaling to covert communication. Interestingly, while humans can recognize shapes, text, and patterns in these sequences with over 98% accuracy, state-of-the-art VLMs achieve 0% accuracy. This performance gap highlights a critical limitation: an over-reliance on frame-level spatial features and an inability to extract meaning from temporal cues. Furthermore, when trained in data sets with low spatial signal-to-noise ratios (SNR), temporal understanding of models degrades more rapidly than human perception, especially in tasks requiring fine-grained temporal reasoning. Overcoming this limitation will require novel architectures or training paradigms that decouple spatial dependencies from temporal processing. Our systematic analysis shows that this issue persists across model scales and architectures. We release SpookyBench to catalyze research in temporal pattern recognition and bridge the gap between human and machine video understanding. Dataset and code has been made available on our project website: https://timeblindness.github.io/.
- Abstract(参考訳): 近年の視覚言語モデル(VLM)の進歩は、ビデオにおける時空間関係の理解に顕著な進歩をもたらした。
しかし、空間情報が隠蔽されると、これらのモデルは純粋に時間的パターンを捉えるのに苦労する。
バイオシグナリングから隠蔽通信までの自然現象を反映した,ノイズのようなフレームの時間的シーケンスにのみ情報をエンコードするベンチマークである。
興味深いことに、人間がこれらのシーケンスの形状、テキスト、パターンを98%以上の精度で認識できる一方で、最先端のVLMは0%の精度を実現している。
この性能ギャップは、フレームレベルの空間的特徴に対する過度な信頼と、時間的手がかりから意味を抽出できないという、限界を浮き彫りにする。
さらに、空間的信号対雑音比 (SNR) の低いデータセットで訓練すると、特に微粒な時間的推論を必要とするタスクにおいて、モデルの時間的理解は人間の知覚よりも急速に低下する。
この制限を克服するには、時間的処理から空間的依存関係を分離する新しいアーキテクチャやトレーニングパラダイムが必要です。
私たちの体系的な分析は、この問題がモデルスケールとアーキテクチャにまたがって持続していることを示している。
我々はSpookyBenchをリリースし、時間的パターン認識の研究を触媒し、人間と機械のビデオ理解のギャップを埋める。
データセットとコードは、プロジェクトのWebサイト(https://timeblindness.github.io/)で利用可能になりました。
関連論文リスト
- TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - Test of Time: Instilling Video-Language Models with a Sense of Time [42.290970800790184]
既存の7つのビデオ言語モデルは、単純な時間的関係を理解するのに苦労している。
そこで本稿では,少量のビデオテキストデータに基づく事前学習に基づく時間適応手法であるVideoCLIPを提案する。
タスクにより高い時間意識を必要とする場合,特にパフォーマンス向上の促進を観察する。
論文 参考訳(メタデータ) (2023-01-05T14:14:36Z) - Learning Fine-Grained Visual Understanding for Video Question Answering
via Decoupling Spatial-Temporal Modeling [28.530765643908083]
空間的時間的モデリングを分離し、画像とビデオ言語を統合して、きめ細かい視覚的理解を学習する。
本稿では,ビデオシーケンス中の事象の時間的位置を特定することを必要とする,新たな事前学習対象であるテンポラル参照モデリングを提案する。
我々のモデルは、桁違いの大きなデータセットで事前訓練された以前の作業より優れています。
論文 参考訳(メタデータ) (2022-10-08T07:03:31Z) - Temporally Consistent Transformers for Video Generation [80.45230642225913]
正確なビデオを生成するには、アルゴリズムは世界の空間的および時間的依存関係を理解する必要がある。
時間依存性のあるビデオ生成を厳格に評価するために、複雑なデータに関する確立されたベンチマークは存在しない。
本稿では,長期間の一貫性を著しく向上し,サンプリング時間を短縮するTemporally Consistent Transformer(TECO)を提案する。
論文 参考訳(メタデータ) (2022-10-05T17:15:10Z) - ST-HOI: A Spatial-Temporal Baseline for Human-Object Interaction
Detection in Videos [91.29436920371003]
時空間HoI検出(ST-HOI)という,シンプルで効果的なアーキテクチャを提案する。
我々は、人や物体の軌跡、正しく位置付けられた視覚的特徴、空間的マスキングのポーズ特徴などの時間的情報を利用する。
我々は、VidHOIと呼ばれる新しいビデオHOIベンチマークを構築し、提案手法は安定したベースラインとして機能する。
論文 参考訳(メタデータ) (2021-05-25T07:54:35Z) - Temporal Interlacing Network [8.876132549551738]
時間的インターレースネットワーク(TIN)は、時間的特徴を学習するための単純だが強力な演算子である。
TINは、空間表現を過去から未来へインターレースすることで、2種類の情報を融合する。
TINはICCV19 - Multi Moments in Timeで1位を獲得した。
論文 参考訳(メタデータ) (2020-01-17T19:06:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。