論文の概要: Which Way Does Time Flow? A Psychophysics-Grounded Evaluation for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.26241v1
- Date: Thu, 30 Oct 2025 08:21:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.70845
- Title: Which Way Does Time Flow? A Psychophysics-Grounded Evaluation for Vision-Language Models
- Title(参考訳): 時間の流れとは何か : 視覚・言語モデルを用いた心理生理学的評価
- Authors: Shiho Matta, Lis Kanashiro Pereira, Peitao Han, Fei Cheng, Shigeru Kitazawa,
- Abstract要約: 現代の視覚言語モデル(VLM)は多くのマルチモーダルなタスクで優れるが、ビデオにおける時間的情報の把握は依然として弱く、決定的に過小評価されている。
短いクリップが前方または後方で再生されるか否かの矢印(AoT)を判断する。
AoT-PsyPhyBENCHは精神物理学的に検証されたベンチマークで、人間が確立した同じ刺激と行動ベースラインを用いて、VLMが自然ビデオの時間方向を推測できるかどうかをテストする。
- 参考スコア(独自算出の注目度): 3.701776503593477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern vision-language models (VLMs) excel at many multimodal tasks, yet their grasp of temporal information in video remains weak and, crucially, under-evaluated. We probe this gap with a deceptively simple but revealing challenge: judging the arrow of time (AoT)-whether a short clip is played forward or backward. We introduce AoT-PsyPhyBENCH, a psychophysically validated benchmark that tests whether VLMs can infer temporal direction in natural videos using the same stimuli and behavioral baselines established for humans. Our comprehensive evaluation of open-weight and proprietary, reasoning and non-reasoning VLMs reveals that most models perform near chance, and even the best lag far behind human accuracy on physically irreversible processes (e.g., free fall, diffusion/explosion) and causal manual actions (division/addition) that humans recognize almost instantly. These results highlight a fundamental gap in current multimodal systems: while they capture rich visual-semantic correlations, they lack the inductive biases required for temporal continuity and causal understanding. We release the code and data for AoT-PsyPhyBENCH to encourage further progress in the physical and temporal reasoning capabilities of VLMs.
- Abstract(参考訳): 現代の視覚言語モデル(VLM)は多くのマルチモーダルなタスクで優れるが、ビデオにおける時間的情報の把握は依然として弱く、決定的に過小評価されている。
短いクリップが前方または後方で再生されるか否かの矢印(AoT)を判断する。
AoT-PsyPhyBENCHは精神物理学的に検証されたベンチマークで、人間が確立した同じ刺激と行動ベースラインを用いて、VLMが自然ビデオの時間方向を推測できるかどうかをテストする。
オープンウェイト、プロプライエタリ、推論、非合理的なVLMの包括的評価は、ほとんどのモデルがほぼチャンスに近づき、物理的に不可逆なプロセス(例えば、自由落下、拡散/爆発)や、人間がほぼ即座に認識する因果的手動(分割/追加)において、人間の正確性よりもはるかに遅れていることを示している。
これらの結果は、現在のマルチモーダルシステムにおける根本的なギャップを浮き彫りにしている: 豊かな視覚的・意味的相関を捉えながら、時間的連続性と因果的理解に必要な帰納的バイアスを欠いている。
我々は、VLMの物理的および時間的推論能力のさらなる進歩を促すために、AoT-PsyPhyBENCHのコードとデータをリリースする。
関連論文リスト
- TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility [70.24211591214528]
ビデオ生成モデルは、浮動、テレポート、モーフィングのような直感的な物理法則に違反したシーケンスを生成する。
既存のビデオランゲージモデル(VLM)は、物理違反の特定に苦慮し、時間的および因果的推論における根本的な制限を明らかにしている。
我々は、バランスの取れたトレーニングデータセットと軌道認識型アテンションモジュールを組み合わせた微調整レシピTRAVLを導入し、モーションエンコーディングを改善する。
言語バイアスを除去し,視覚的時間的理解を分離する300本のビデオ(150本実写150本)のベンチマークであるImplausiBenchを提案する。
論文 参考訳(メタデータ) (2025-10-08T21:03:46Z) - Seeing the Arrow of Time in Large Multimodal Models [60.56280929030237]
現在の大規模マルチモーダルモデル(LMM)は、言語クエリに応答する際のビデオの時間方向の知覚と利用に苦慮している。
本稿では,強化学習(RL)に基づく学習戦略であるArrowRLを紹介する。
厳密な評価のために、時間的課題を探索する新しい多面的ベンチマークであるAoTBenchを開発する。
論文 参考訳(メタデータ) (2025-06-03T19:32:07Z) - Time Blindness: Why Video-Language Models Can't See What Humans Can? [48.653937503646375]
我々は、ノイズのようなフレームの時間的シーケンスにのみ情報を格納するベンチマークである$bfSpookyBenchを紹介した。
人間は98%以上の精度でこれらのシーケンスの形状、テキスト、パターンを認識できるが、最先端の視覚言語モデルは0%の精度を達成する。
この性能ギャップは、フレームレベルの空間的特徴に対する過度な信頼と、時間的手がかりから意味を抽出できないという、限界を浮き彫りにする。
論文 参考訳(メタデータ) (2025-05-30T17:59:12Z) - TimeCausality: Evaluating the Causal Ability in Time Dimension for Vision Language Models [13.018267909897014]
時間的因果性、特に現実世界の知識によって支配される物体の不可逆的な変換に関する推論は、人間の視覚的理解の基本的な側面である。
時間次元における視覚言語モデル(VLM)の因果推論能力を評価するために設計された新しいベンチマークである textbfTimeCausality を紹介する。
現在のSOTAオープンソースVLMは、GPT-4oのようなクローズドソースモデルに匹敵するパフォーマンスレベルを達成していますが、クローズドソースの競合製品と比べてベンチマークに大きく遅れています。
論文 参考訳(メタデータ) (2025-05-21T12:18:02Z) - TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models [55.48403691519395]
トマト(Tomato)は、ビデオ理解におけるMFMの時間的推論能力を厳格に評価するための新しいベンチマークである。
TOMATOは、6つのタスクにまたがる1,484件の注意深いキュレーションと人間による注釈付き質問で構成されている。
総合評価の結果, 人体モデルの性能差は57.3%であり, 最良性能モデルでは57.3%であった。
論文 参考訳(メタデータ) (2024-10-30T17:50:23Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。