論文の概要: The Wittgensteinian Representation Hypothesis: Is Language the Attractor of Multimodal Convergence?
- arxiv url: http://arxiv.org/abs/2605.09352v1
- Date: Sun, 10 May 2026 06:05:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.207617
- Title: The Wittgensteinian Representation Hypothesis: Is Language the Attractor of Multimodal Convergence?
- Title(参考訳): ウィトゲンシュタイン表現仮説:言語は多モーダル収束の魅力か?
- Authors: Zhaoyang Zhang, Run Shao, Dongyue Wu, Jiajie Teng, Chao Tao, Jingdong Chen, Haifeng Li,
- Abstract要約: 非対称アライメント尺度であるCycle-kNNを用いた方向収束解析を導入する。
非言語モダリティは、逆よりも言語近傍構造にかなり移行する。
我々はこれをウィトゲンシュタイン表現仮説(Wittgensteinian Representation hypothesis: 言語の意味構造は多モーダル表現収束の魅力である)として定式化する。
- 参考スコア(独自算出の注目度): 37.415683554349194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding why independently trained neural networks from different modalities converge toward shared representations, and where this convergence leads, remains an open question in representation learning. All existing evidence relies on symmetric similarity measures, which can detect convergence but are structurally blind to its direction. We introduce directional convergence analysis using cycle-kNN, an asymmetric alignment measure, applied across dozens of independently trained unimodal models spanning point clouds, vision, and language. We uncover a consistent directional asymmetry: non-language modalities move toward the neighborhood structure of language significantly more than the reverse, and this pattern holds across all model families and scales--yet is entirely invisible to symmetric measures. Mechanistic analysis traces the directionality to feature density asymmetry, whereby language representations occupy the most compact regions of representational space. The Information Bottleneck framework provides a principled interpretation: optimization under compression drives representations toward discrete, compositional structures characteristic of language. We formalize this as the Wittgensteinian Representation Hypothesis: the semantic structure of language is the asymptotic attractor of multimodal representation convergence.
- Abstract(参考訳): 異なるモダリティから独立して訓練されたニューラルネットワークが、共有表現に向かって収束し、この収束がどこから導かれるかを理解することは、表現学習におけるオープンな疑問である。
既存のすべての証拠は対称的な類似度尺度に依存しており、収束を検出することができるが、その方向に対して構造的に盲目である。
非対称アライメント尺度であるCycle-kNNを用いた方向収束解析を導入し、点雲、視覚、言語にまたがる数十の独立に訓練されたユニモーダルモデルに適用する。
我々は一貫した方向性の非対称性を明らかにする:非言語的モダリティは、逆よりも言語近傍構造へ著しく移行し、このパターンはすべてのモデル族とスケールにわたって保持する。
メカニスティック解析は、言語表現が表現空間の最もコンパクトな領域を占める特徴密度非対称性への方向性を辿る。
Information Bottleneckフレームワークは、基本的な解釈を提供する: 圧縮下での最適化は、言語特有の独立した構成構造への表現を駆動する。
我々はこれをウィトゲンシュタイン表現仮説(Wittgensteinian Representation hypothesis: 言語の意味構造は多モーダル表現収束の漸近的魅力である)として定式化する。
関連論文リスト
- Anisotropic Modality Align [91.23979617826926]
マルチモーダルな大規模言語モデルの訓練は、高品質なペア型マルチモーダルデータの不足により、長い間制限されてきた。
近年の研究では、事前訓練されたマルチモーダルコントラストモデルの共有表現空間がブリッジとして機能し、非モーダルデータを用いたマルチモーダルトレーニングを可能にすることが示されている。
中心となる障害は、共有空間の永続的なモダリティギャップにある。
論文 参考訳(メタデータ) (2026-05-08T14:53:24Z) - Barycentric alignment for instance-level comparison of neural representations [2.1920579994942164]
我々は、多くのモデルにまたがる普遍的な埋め込み空間を構築するために、ニュアンス対称性を引用するバリ中心アライメントフレームワークを導入する。
視覚および言語モデルファミリ間での表現収束とばらつきを予測できる体系的な入力特性を同定する。
また、同一のバリ中心アライメントフレームワークを純粋に非モーダル視覚と言語モデルに適用し、共有空間へのポストホックアライメントが画像テキストの類似度スコアを得ることを示す。
論文 参考訳(メタデータ) (2026-02-09T21:49:44Z) - The Representational Geometry of Number [1.5994376682356057]
数値表現はタスク間の安定な関係構造を保っていることを示す。
タスク固有の表現は、分離可能な線形方向に沿ってエンコードされた等級のような低レベルな特徴を持つ、異なる部分空間に埋め込まれている。
このことは、タスク固有の変換が概念表現の共通基盤関係構造に適用されたときに、理解が生じることを示唆している。
論文 参考訳(メタデータ) (2026-02-06T16:35:22Z) - A Foundational Theory of Quantitative Abstraction: Adjunctions, Duality, and Logic for Probabilistic Systems [2.362412515574206]
大規模あるいは連続的な状態空間は、正確に解析しやすくし、原理化された量的抽象を要求する。
この研究は、圏論、コレージュブラ、量論理、最適輸送を統合することで、そのような抽象の統一理論を発展させる。
論文 参考訳(メタデータ) (2025-10-22T10:16:24Z) - Emergence of Quantised Representations Isolated to Anisotropic Functions [0.0]
本稿では,既存のスポットライト共振法に基づく表現構造決定手法を提案する。
これは、アクティベーション関数のみを変更する制御されたアブレーション研究を通じて、オートエンコーダモデルにおいて、個々の表現がどのように出現し、組織化できるかを示す。
この手法を用いて、関数駆動対称性が表現に暗黙の帰納バイアスとして作用するかどうかを判定する。
論文 参考訳(メタデータ) (2025-07-16T09:27:54Z) - On Universality Classes of Equivariant Networks [9.137637807153464]
分離制約を超えた同変ニューラルネットワークの近似パワーについて検討する。
分離電力が表現力を完全に捉えていないことを示す。
浅い同変ネットワークが普遍性を達成できるような設定を同定する。
論文 参考訳(メタデータ) (2025-06-02T22:07:52Z) - The Origins of Representation Manifolds in Large Language Models [52.68554895844062]
表現空間におけるコサイン類似性は、最短のオンマンフォールド経路を通して特徴の内在幾何学を符号化することができることを示す。
理論の臨界仮定と予測は、大きな言語モデルのテキスト埋め込みとトークンアクティベーションに基づいて検証される。
論文 参考訳(メタデータ) (2025-05-23T13:31:22Z) - Evaluating the Robustness of Interpretability Methods through
Explanation Invariance and Equivariance [72.50214227616728]
解釈可能性法は、それらの説明が説明されたモデルを忠実に記述した場合にのみ有用である。
特定の対称性群の下で予測が不変であるニューラルネットワークを考える。
論文 参考訳(メタデータ) (2023-04-13T17:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。