論文の概要: Time Series, Vision, and Language: Exploring the Limits of Alignment in Contrastive Representation Spaces
- arxiv url: http://arxiv.org/abs/2602.19367v1
- Date: Sun, 22 Feb 2026 22:39:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.610147
- Title: Time Series, Vision, and Language: Exploring the Limits of Alignment in Contrastive Representation Spaces
- Title(参考訳): 時系列・視覚・言語:コントラスト表現空間におけるアライメントの限界を探る
- Authors: Pratham Yashwante, Rose Yu,
- Abstract要約: プラトン表現仮説(英: Platonic Representation hypothesis posits)は、異なるモジュラリティで訓練されたモデルから表現を学んだ仮説は、世界の共有潜在構造に収束する。
まずこれを三モーダルな設定で検討し、独立に事前訓練された時系列、視覚、言語エンコーダが明示的な結合がない場合にほぼ直交的な幾何学を示すことを発見した。
次に、コントラスト学習を用いて、凍結エンコーダ上にプロジェクションヘッドをトレーニングすることにより、ポストホックアライメントを適用し、幾何学、スケーリング行動、および情報密度および入力モード特性への依存性に関する結果の表現を分析する。
- 参考スコア(独自算出の注目度): 26.947702126448203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Platonic Representation Hypothesis posits that learned representations from models trained on different modalities converge to a shared latent structure of the world. However, this hypothesis has largely been examined in vision and language, and it remains unclear whether time series participate in such convergence. We first examine this in a trimodal setting and find that independently pretrained time series, vision, and language encoders exhibit near-orthogonal geometry in the absence of explicit coupling. We then apply post-hoc alignment by training projection heads over frozen encoders using contrastive learning, and analyze the resulting representations with respect to geometry, scaling behavior, and dependence on information density and input modality characteristics. Our investigation reveals that overall alignment in contrastive representation spaces improves with model size, but this alignment is asymmetric: time series align more strongly with visual representations than with text, and images can act as effective intermediaries between time series and language. We further see that richer textual descriptions improve alignment only up to a threshold; training on denser captions does not lead to further improvement. Analogous effects are observed for visual representations. Our findings shed light on considerations for building multimodal systems involving non-conventional data modalities beyond vision and language.
- Abstract(参考訳): プラトン表現仮説(英: Platonic Representation hypothesis posits)は、異なるモジュラリティで訓練されたモデルから表現を学んだ仮説は、世界の共有潜在構造に収束する。
しかし、この仮説は主に視覚と言語で検討されており、時系列がそのような収束に関与するかどうかは不明である。
まずこれを三モーダルな設定で検討し、独立に事前訓練された時系列、視覚、言語エンコーダが明示的な結合がない場合にほぼ直交的な幾何学を示すことを発見した。
次に、コントラスト学習を用いて、凍結エンコーダ上にプロジェクションヘッドをトレーニングすることにより、ポストホックアライメントを適用し、幾何学、スケーリング行動、および情報密度および入力モード特性への依存性に関する結果の表現を分析する。
比較表現空間全体のアライメントはモデルサイズにより改善されるが、このアライメントは非対称であり、時系列はテキストよりも視覚表現と強く一致し、画像は時系列と言語の間の効果的な仲介者として機能する。
さらに、よりリッチなテキスト記述により、アライメントはしきい値まで改善され、より密度の高いキャプションでのトレーニングは、さらなる改善には至らない。
視覚表現にはアナログ効果が観察される。
本研究は,視覚・言語以外の非伝統的なデータモダリティを含むマルチモーダルシステムの構築について考察した。
関連論文リスト
- Self-Supervised Learning as Discrete Communication [3.33876524834826]
ほとんどの自己教師付き学習(SSL)メソッドは、同じ入力の異なるビューを整列させることで、連続的な視覚表現を学習する。
我々は,教師と学生ネットワーク間の個別のコミュニケーションプロセスとして,視覚的自己教師型学習の枠組みを定めている。
プロジェクションヘッドの周期的再起動は、予測的のままの埋め込みを促進することによって、この効果を高めることを示す。
論文 参考訳(メタデータ) (2026-02-10T13:24:06Z) - Towards Understanding Multimodal Fine-Tuning: Spatial Features [25.349396112139214]
Vision-Language Models (VLM) は、事前訓練された言語モデルとビジョンエンコーダをペアリングすることで、幅広いタスクにおいて強力なパフォーマンスを達成する。
本稿では,ステージワイドモデル差分法によるVLM適応の最初の力学解析について述べる。
論文 参考訳(メタデータ) (2026-02-06T18:48:18Z) - Teaching Time Series to See and Speak: Forecasting with Aligned Visual and Textual Perspectives [22.10401153489018]
時系列の予測は伝統的に単調な数値入力に依存している。
生の時系列を構造化された視覚的・テキスト的視点に変換するマルチモーダルコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-30T17:59:14Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Interpretable Time-series Representation Learning With Multi-Level
Disentanglement [56.38489708031278]
Disentangle Time Series (DTS)は、シーケンシャルデータのための新しいDisentanglement Enhanceingフレームワークである。
DTSは時系列の解釈可能な表現として階層的意味概念を生成する。
DTSは、セマンティック概念の解釈性が高く、下流アプリケーションで優れたパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-05-17T22:02:24Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。