論文の概要: A Matter of Time: Revealing the Structure of Time in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.19559v1
- Date: Wed, 22 Oct 2025 13:14:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.822735
- Title: A Matter of Time: Revealing the Structure of Time in Vision-Language Models
- Title(参考訳): 時間の問題:視覚・言語モデルにおける時間構造を明らかにする
- Authors: Nidham Tekaya, Manuela Waldner, Matthias Zeppelzauer,
- Abstract要約: TIME10kは1万以上の画像のベンチマークデータセットであり、時間的地平が真である。
我々は,37の視覚言語モデル(VLM)の時間認識性を,新しい手法により評価した。
埋め込み空間から明示的なタイムラインの表現を導出する手法を提案する。
- 参考スコア(独自算出の注目度): 1.0095483062454675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale vision-language models (VLMs) such as CLIP have gained popularity for their generalizable and expressive multimodal representations. By leveraging large-scale training data with diverse textual metadata, VLMs acquire open-vocabulary capabilities, solving tasks beyond their training scope. This paper investigates the temporal awareness of VLMs, assessing their ability to position visual content in time. We introduce TIME10k, a benchmark dataset of over 10,000 images with temporal ground truth, and evaluate the time-awareness of 37 VLMs by a novel methodology. Our investigation reveals that temporal information is structured along a low-dimensional, non-linear manifold in the VLM embedding space. Based on this insight, we propose methods to derive an explicit ``timeline'' representation from the embedding space. These representations model time and its chronological progression and thereby facilitate temporal reasoning tasks. Our timeline approaches achieve competitive to superior accuracy compared to a prompt-based baseline while being computationally efficient. All code and data are available at https://tekayanidham.github.io/timeline-page/.
- Abstract(参考訳): CLIPのような大規模視覚言語モデル(VLM)は、汎用的で表現力のあるマルチモーダル表現で人気を集めている。
さまざまなテキストメタデータで大規模なトレーニングデータを活用することで、VLMはオープン語彙の能力を獲得し、トレーニング範囲を超えてタスクを解決します。
本稿では,VLMの時間的意識を考察し,視覚的コンテンツを時間内に位置決めする能力を評価する。
TIME10kは1万枚以上の画像と時空間的真実のベンチマークデータセットであり,37個のVLMの時間的認識度を新しい手法で評価する。
本研究は, VLM埋め込み空間内の低次元非線形多様体に沿って時間情報が構造化されていることを明らかにする。
この知見に基づいて、埋め込み空間から明示的な ``timeline'' 表現を導出する方法を提案する。
これらの表現は時間とその時系列の進行をモデル化し、時間的推論作業を容易にする。
我々のタイムラインアプローチは、計算効率が良く、プロンプトベースのベースラインと比較して、競争力と優れた精度を達成する。
すべてのコードとデータはhttps://tekayanidham.github.io/timeline-page/.comで公開されている。
関連論文リスト
- Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs [54.502280390499756]
我々はTimeWarpを提案し、モデルからの応答を微調整し、与えられた入力ビデオにフォーカスするよう促すために、ターゲットとなる合成時間データセットを作成する。
提案手法を既存モデルに適用すると,時間的理解ベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2025-10-04T21:48:40Z) - Strefer: Empowering Video LLMs with Space-Time Referring and Reasoning via Synthetic Instruction Data [100.5266292850922]
Streferはビデオ大モデルに参照と推論機能を持たせるために設計された合成データ生成フレームワークである。
Streferは、時間的に密度が高くきめ細かなビデオメタデータを擬似アノテーションするデータエンジンを使用して、多様な命令生成データを生成する。
我々のアプローチは、ビデオLLMが空間的および時間的参照を解釈する能力を高め、現実のAIコンパニオンに不可欠な、より汎用的で時空間対応の推論を育む。
論文 参考訳(メタデータ) (2025-09-03T17:33:20Z) - Time-VLM: Exploring Multimodal Vision-Language Models for Augmented Time Series Forecasting [26.4608782425897]
Time-VLMは、時間的、視覚的、テキスト的なモダリティを橋渡しして予測を強化する新しいフレームワークである。
本フレームワークは,(1)記憶バンク相互作用を通じて時間的特徴を抽出する検索型学習者,(2)時系列を情報的画像としてエンコードするビジョン型学習者,(3)文脈的テキスト記述を生成するテキスト型学習者,の3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-02-06T05:59:45Z) - On the Feasibility of Vision-Language Models for Time-Series Classification [0.7421845364041001]
視覚言語モデル(VLM)の機能を活用して時系列分類を構築する。
我々は,グラフィカルなデータ表現を画像として組み込んだ新しい手法を,数値データと組み合わせて開発する。
論文 参考訳(メタデータ) (2024-12-23T05:52:17Z) - Hierarchical Multimodal LLMs with Semantic Space Alignment for Enhanced Time Series Classification [4.5939667818289385]
HiTimeは階層的なマルチモーダルモデルであり、時間的情報を大きな言語モデルにシームレスに統合する。
本研究は, 時間的特徴をLCMに組み込むことにより, 時系列解析の進歩に寄与する可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-24T12:32:19Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - Towards Transparency: Exploring LLM Trainings Datasets through Visual Topic Modeling and Semantic Frame [0.0]
我々は、AIと認知科学を活用してテキストデータセットの洗練を改善するソフトウェアであるBunkaを紹介する。
トピックモデリングと2次元カルトグラフィーを組み合わせることで、データセットの透明性が向上することを示す。
最後に、フレーム分析を用いることで、トレーニングコーパス内の既存のバイアスに対する洞察が得られることを示す。
論文 参考訳(メタデータ) (2024-06-03T18:44:13Z) - Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。
時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。
Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文 参考訳(メタデータ) (2023-10-03T01:31:25Z) - Visualising Deep Network's Time-Series Representations [93.73198973454944]
機械学習モデルの普及にもかかわらず、多くの場合、モデルの内部で起きていることに関する洞察のないブラックボックスとして運用される。
本稿では,多次元時系列データの可視化に着目し,この問題に対処する手法を提案する。
高周波在庫市場データセットの実験は、この方法が迅速かつ識別可能な可視化を提供することを示しています。
論文 参考訳(メタデータ) (2021-03-12T09:53:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。