論文の概要: The Indra Representation Hypothesis for Multimodal Alignment
- arxiv url: http://arxiv.org/abs/2604.04496v1
- Date: Mon, 06 Apr 2026 07:46:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.136058
- Title: The Indra Representation Hypothesis for Multimodal Alignment
- Title(参考訳): マルチモーダルアライメントのためのインドラ表現仮説
- Authors: Jianglin Lu, Hailing Wang, Kuo Yang, Yitian Zhang, Simon Jenni, Yun Fu,
- Abstract要約: Indraのネットの哲学的比喩に触発された『Indra Representation hypothesis』を提案する。
我々は、一助基盤モデルからの表現が収束し、現実の下の共有関係構造を暗黙的に反映していると論じる。
- 参考スコア(独自算出の注目度): 46.60107187498204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have uncovered an interesting phenomenon: unimodal foundation models tend to learn convergent representations, regardless of differences in architecture, training objectives, or data modalities. However, these representations are essentially internal abstractions of samples that characterize samples independently, leading to limited expressiveness. In this paper, we propose The Indra Representation Hypothesis, inspired by the philosophical metaphor of Indra's Net. We argue that representations from unimodal foundation models are converging to implicitly reflect a shared relational structure underlying reality, akin to the relational ontology of Indra's Net. We formalize this hypothesis using the V-enriched Yoneda embedding from category theory, defining the Indra representation as a relational profile of each sample with respect to others. This formulation is shown to be unique, complete, and structure-preserving under a given cost function. We instantiate the Indra representation using angular distance and evaluate it in cross-model and cross-modal scenarios involving vision, language, and audio. Extensive experiments demonstrate that Indra representations consistently enhance robustness and alignment across architectures and modalities, providing a theoretically grounded and practical framework for training-free alignment of unimodal foundation models. Our code is available at https://github.com/Jianglin954/Indra.
- Abstract(参考訳): 単調な基礎モデルは、アーキテクチャ、訓練目的、データモダリティの違いにかかわらず、収束表現を学習する傾向がある。
しかし、これらの表現は基本的に標本を独立に特徴づけるサンプルの内部抽象であり、限定的な表現性をもたらす。
本稿では,インドラネットの哲学的比喩に触発された「インドラ表現仮説」を提案する。
Indra's Netのリレーショナルオントロジーに類似した、現実を基盤とする共有リレーショナル構造を暗黙的に反映するために、ユニモーダル基礎モデルからの表現が収束していると論じる。
我々は、この仮説を、圏論からの V-enriched Yoneda 埋め込みを用いて定式化し、Indra 表現を、他者に対する各サンプルの相関プロファイルとして定義する。
この定式化は、与えられたコスト関数の下で一意、完全、構造保存であることが示される。
角距離を用いてIndra表現をインスタンス化し、視覚、言語、音声を含むクロスモデルおよびクロスモーダルシナリオで評価する。
広範囲な実験により、Indra表現はアーキテクチャやモダリティをまたいだ堅牢性と整合性を一貫して強化し、理論上は根拠のない一助基盤モデルのトレーニングなしアライメントのための実践的な枠組みを提供する。
私たちのコードはhttps://github.com/Jianglin954/Indra.comから入手可能です。
関連論文リスト
- The Trinity of Consistency as a Defining Principle for General World Models [106.16462830681452]
一般世界モデルは、客観的物理法則を学習し、シミュレートし、推論することができる。
本稿では,一般世界モデルに必要な基本的特性を定義するための理論的枠組みを提案する。
我々の研究は、現在のシステムの限界と将来の進歩のためのアーキテクチャ要件の両方を明確にし、一般的な世界モデルへの原則的な経路を確立します。
論文 参考訳(メタデータ) (2026-02-26T16:15:55Z) - Emergent Structured Representations Support Flexible In-Context Inference in Large Language Models [77.98801218316505]
大型言語モデル(LLM)は、人間のような推論を示唆する創発的な行動を示す。
テキスト内概念推論におけるLLMの内部処理について検討する。
論文 参考訳(メタデータ) (2026-02-08T03:14:39Z) - The Evolving Nature of Latent Spaces: From GANs to Diffusion [2.9612444540570113]
拡散モデルが表現の重みをいかに断片化し、統一された内部空間の仮定に挑戦するかを示す。
我々は、生成的AIがどのように理解されているかを再考する:コンテンツを直接合成するのではなく、専門的なプロセスの創発的な構成としてである。
論文 参考訳(メタデータ) (2025-10-20T10:20:42Z) - Escaping Plato's Cave: JAM for Aligning Independently Trained Vision and Language Models [30.07172193932125]
本稿では,JAM(Joint Autoencoder Modulator)が独立に訓練された表現のアライメントを誘導することを示す。
本研究は, 共通意味論の構造に関する理論的知見と, 一般論的な一助的基礎を専門的マルチモーダルモデルに変換するための実践的ガイダンスを提供する。
論文 参考訳(メタデータ) (2025-07-01T21:43:50Z) - Can Diffusion Models Disentangle? A Theoretical Perspective [37.21661224725838]
本稿では,拡散モデルが非交叉表現を学習する方法を理解するための新しい理論的枠組みを提案する。
我々は、一般的な非絡み付き潜在変数モデルの識別可能性条件を確立し、トレーニング力学を解析し、非絡み付き潜在部分空間モデルのサンプル複雑性境界を導出する。
論文 参考訳(メタデータ) (2025-03-31T20:46:18Z) - Learning Visual-Semantic Subspace Representations [49.17165360280794]
我々は,自己教師型学習に有効な情報理論の原理を基礎として,核ノルムに基づく損失関数を導入する。
この損失の理論的特徴として、クラス性の促進に加えて、部分空間格子内のデータのスペクトル幾何学を符号化していることを示す。
論文 参考訳(メタデータ) (2024-05-25T12:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。