論文の概要: TimeCausality: Evaluating the Causal Ability in Time Dimension for Vision Language Models
- arxiv url: http://arxiv.org/abs/2505.15435v1
- Date: Wed, 21 May 2025 12:18:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.62516
- Title: TimeCausality: Evaluating the Causal Ability in Time Dimension for Vision Language Models
- Title(参考訳): 時間因果性:視覚言語モデルにおける時間次元の因果能力の評価
- Authors: Zeqing Wang, Shiyuan Zhang, Chengpei Tang, Keze Wang,
- Abstract要約: 時間的因果性、特に現実世界の知識によって支配される物体の不可逆的な変換に関する推論は、人間の視覚的理解の基本的な側面である。
時間次元における視覚言語モデル(VLM)の因果推論能力を評価するために設計された新しいベンチマークである textbfTimeCausality を紹介する。
現在のSOTAオープンソースVLMは、GPT-4oのようなクローズドソースモデルに匹敵するパフォーマンスレベルを達成していますが、クローズドソースの競合製品と比べてベンチマークに大きく遅れています。
- 参考スコア(独自算出の注目度): 13.018267909897014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning about temporal causality, particularly irreversible transformations of objects governed by real-world knowledge (e.g., fruit decay and human aging), is a fundamental aspect of human visual understanding. Unlike temporal perception based on simple event sequences, this form of reasoning requires a deeper comprehension of how object states change over time. Although the current powerful Vision-Language Models (VLMs) have demonstrated impressive performance on a wide range of downstream tasks, their capacity to reason about temporal causality remains underexplored. To address this gap, we introduce \textbf{TimeCausality}, a novel benchmark specifically designed to evaluate the causal reasoning ability of VLMs in the temporal dimension. Based on our TimeCausality, we find that while the current SOTA open-source VLMs have achieved performance levels comparable to closed-source models like GPT-4o on various standard visual question answering tasks, they fall significantly behind on our benchmark compared with their closed-source competitors. Furthermore, even GPT-4o exhibits a marked drop in performance on TimeCausality compared to its results on other tasks. These findings underscore the critical need to incorporate temporal causality into the evaluation and development of VLMs, and they highlight an important challenge for the open-source VLM community moving forward. Code and Data are available at \href{https://github.com/Zeqing-Wang/TimeCausality }{TimeCausality}.
- Abstract(参考訳): 時間的因果関係、特に現実世界の知識(例えば、果物の腐敗と人間の老化)によって支配される物体の不可逆的な変換について推論することは、人間の視覚的理解の基本的な側面である。
単純な事象列に基づく時間的知覚とは異なり、この推論の形式は時間とともに物体の状態がどのように変化するかをより深く理解する必要がある。
現在の強力なVLM(Vision-Language Models)は、幅広い下流タスクにおいて顕著なパフォーマンスを示しているが、時間的因果性について推論する能力はいまだ探索されていない。
このギャップに対処するために、時間次元におけるVLMの因果推論能力を評価するために特別に設計された新しいベンチマークである \textbf{TimeCausality} を導入する。
われわれのTimeCausalityに基づいて、現在のSOTAオープンソースVLMは、様々な標準的な視覚的質問応答タスクにおいて、GPT-4oのようなクローズドソースモデルに匹敵するパフォーマンスレベルを達成していますが、クローズドソースの競合製品と比較して、ベンチマークでは大幅に遅れています。
さらに、GPT-4oでさえ、他のタスクの結果と比較して、TimeCausalityのパフォーマンスが著しく低下している。
これらの知見は、VLMの評価と開発に時間的因果関係を組み込むことが重要であり、オープンソースVLMコミュニティが前進する上で重要な課題を浮き彫りにしている。
コードとデータは \href{https://github.com/Zeqing-Wang/TimeCausality }{TimeCausality} で公開されている。
関連論文リスト
- Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [90.65399476233495]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論タイプに焦点を当てている。
本稿では,人間の判断とLMM-as-a-judgeアプローチの両方を用いて,指示推論,外観整合性,視覚的可視性を評価する評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models [69.68265487134686]
Video SimpleQAは、LVLMの事実性評価に適した最初の総合的なベンチマークである。
私たちの研究は、以下の重要な機能を通じて、既存のビデオベンチマークと区別します。
答えは、簡潔なフォーマットで曖昧で決定的に正しいものとして作成されます。
論文 参考訳(メタデータ) (2025-03-24T17:46:09Z) - ChronoSense: Exploring Temporal Understanding in Large Language Models with Time Intervals of Events [0.20132569095596248]
我々はChronoSenseについて紹介する。ChronoSenseは大規模言語モデルの時間的理解を評価するための新しいベンチマークである。
このベンチマークを用いて7つのLLMの性能評価を行い, モデルがアレン関係, 対称関係であっても, 全く異なる扱いをすることを示した。
全体として、モデルの性能の低さは、LLMにおける時間的理解の改善の必要性を強調している。
論文 参考訳(メタデータ) (2025-01-06T14:27:41Z) - Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。
CoTempQAは4つの時間的シナリオを含むベンチマークである。
実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-06-13T12:56:21Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Temporal Blind Spots in Large Language Models [20.631107338678234]
大規模言語モデル(LLM)は、様々な自然言語処理タスクを実行する非並列性のため、最近注目されている。
本研究では,時間的理解を必要とするタスクに対して,汎用LLMの基本的な限界について検討する。
論文 参考訳(メタデータ) (2024-01-22T16:20:14Z) - VITATECS: A Diagnostic Dataset for Temporal Concept Understanding of Video-Language Models [27.280311932711847]
VITATECS, 診断用VIdeo-Text dAtasetについて述べる。
まず、異なる時間的側面を理解するためのVidLMの能力を診断するために、自然言語における時間的概念のきめ細かい分類法を導入する。
特定の時間的側面においてのみ、オリジナルと異なる反実的な映像記述を生成する。
論文 参考訳(メタデータ) (2023-11-29T07:15:34Z) - TRAM: Benchmarking Temporal Reasoning for Large Language Models [12.112914393948415]
10個のデータセットからなる時間的推論ベンチマークであるTRAMを紹介する。
GPT-4やLlama2のような一般的な言語モデルをゼロショットや少数ショットのシナリオで評価する。
以上の結果から,最も優れたモデルラグは人的パフォーマンスに大きく遅れていることが示唆された。
論文 参考訳(メタデータ) (2023-10-02T00:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。