論文の概要: Escaping Platos Cave: JAM for Aligning Independently Trained Vision and Language Models
- arxiv url: http://arxiv.org/abs/2507.01201v1
- Date: Tue, 01 Jul 2025 21:43:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.938762
- Title: Escaping Platos Cave: JAM for Aligning Independently Trained Vision and Language Models
- Title(参考訳): プラトン洞窟から脱出する:独立訓練された視覚と言語モデルの調整のためのJAM
- Authors: Hyoseo, Yoon, Yisong Yue, Been Kim,
- Abstract要約: 単一モードモデルの潜在表現に対して、モダリティ固有のオートエンコーダを訓練するフレームワークを導入する。
類推により、このフレームワークはプラトンの洞窟から逃れる方法として機能し、結合しない入力から共有構造の出現を可能にする。
- 参考スコア(独自算出の注目度): 27.091366887354063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Independently trained vision and language models inhabit disjoint representational spaces, shaped by their respective modalities, objectives, and architectures. Yet an emerging hypothesis - the Platonic Representation Hypothesis - suggests that such models may nonetheless converge toward a shared statistical model of reality. This compatibility, if it exists, raises a fundamental question: can we move beyond post-hoc statistical detection of alignment and explicitly optimize for it between such disjoint representations? We cast this Platonic alignment problem as a multi-objective optimization task - preserve each modality's native structure while aligning for mutual coherence. We introduce the Joint Autoencoder Modulator (JAM) framework that jointly trains modality-specific autoencoders on the latent representations of pre-trained single modality models, encouraging alignment through both reconstruction and cross-modal objectives. By analogy, this framework serves as a method to escape Plato's Cave, enabling the emergence of shared structure from disjoint inputs. We evaluate this framework across three critical design axes: (i) the alignment objective - comparing contrastive loss (Con), its hard-negative variant (NegCon), and our Spread loss, (ii) the layer depth at which alignment is most effective, and (iii) the impact of foundation model scale on representational convergence. Our findings show that our lightweight Pareto-efficient framework reliably induces alignment, even across frozen, independently trained representations, offering both theoretical insight and practical pathways for transforming generalist unimodal foundations into specialist multimodal models.
- Abstract(参考訳): 独立に訓練された視覚と言語モデルは、それぞれのモダリティ、目的、アーキテクチャによって形作られた、不連続な表現空間に生息する。
しかし、プラトン表現仮説(Platonic Representation hypothesis)という新たな仮説は、そのようなモデルが現実の共有統計モデルに収束する可能性を示唆している。
この互換性は、もし存在するならば、根本的な疑問を提起する: 保留後の統計的なアライメントの検出を超えて、そのような不整合表現の間でそれを明示的に最適化できるだろうか?
我々はこのプラトンアライメント問題を多目的最適化タスクとして、各モダリティのネイティブ構造を相互整合性に整合しながら保持する。
本稿では,事前学習した単一モダリティモデルの潜在表現に対して,モダリティ固有のオートエンコーダを共同で訓練し,再構成とクロスモーダルの両方の目的を通じてアライメントを促進するJAMフレームワークを提案する。
類推により、このフレームワークはプラトンの洞窟から逃れる方法として機能し、結合しない入力から共有構造の出現を可能にする。
このフレームワークを3つの重要な設計軸で評価する。
(i)コントラッシブ・ロス(Con)、ハード・ネガティブ・バリアント(NegCon)、スプレッド・ロス(Spread Los)を比較したアライメント目標。
二 配向が最も効果的である層深さ
三 基礎モデル尺度が表現収束に及ぼす影響
我々の軽量なPareto- efficient frameworkは、凍結した、独立に訓練された表現でさえ確実にアライメントを誘導し、理論的な洞察と実践的な経路の両方を提供し、一般のユニモーダル基盤を専門のマルチモーダルモデルに変換する。
関連論文リスト
- Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - SARA: Structural and Adversarial Representation Alignment for Training-efficient Diffusion Models [12.26595705520937]
マルチレベル表現制約を強制する階層的アライメントフレームワークであるSARAを紹介する。
ImageNet-256の実験では、SARAはREPAの2倍の速さで1.36のFIDを達成した。
論文 参考訳(メタデータ) (2025-03-11T10:17:32Z) - JADE: Joint-aware Latent Diffusion for 3D Human Generative Modeling [62.77347895550087]
JADEは人体形状の変化を微粒化制御で学習する生成フレームワークである。
私たちの重要な洞察は、人体を骨格構造に分解する共同認識の潜伏表現です。
提案した分解条件下でのコヒーレントで可塑性な人体形状を生成するため,カスケードパイプラインも提案する。
論文 参考訳(メタデータ) (2024-12-29T14:18:35Z) - Latent Functional Maps: a spectral framework for representation alignment [34.20582953800544]
表現学習コミュニティに多目的フレームワークを導入し、(i)異なる空間を解釈可能な方法で比較し、その内在的類似性を測定すること、(ii)教師なしと弱教師付きの両方で対応性を見出すこと、(iii)異なる空間間の表現を効果的に伝達すること。
我々は, 縫合作業から検索作業, および複数のモダリティに至るまで, 様々なアプリケーションにおいて, フレームワークを検証し, 表現アライメントのためのスウィスアームナイフとして機能することを示す。
論文 参考訳(メタデータ) (2024-06-20T10:43:28Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Towards Robust and Adaptive Motion Forecasting: A Causal Representation
Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。
我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。
合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-11-29T18:59:09Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。