論文の概要: Compositional Generalization Requires Linear, Orthogonal Representations in Vision Embedding Models
- arxiv url: http://arxiv.org/abs/2602.24264v1
- Date: Fri, 27 Feb 2026 18:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.563025
- Title: Compositional Generalization Requires Linear, Orthogonal Representations in Vision Embedding Models
- Title(参考訳): 合成一般化は視覚埋め込みモデルにおける線形直交表現を必要とする
- Authors: Arnas Uselis, Andrea Dittadi, Seong Joon Oh,
- Abstract要約: 3つのデシラタを定式化した。
表現は概念単位のコンポーネントに線形に分解する必要があることを示す。
構成可能な概念の個数を埋め込み幾何学に結びつける次元境界を導出する。
- 参考スコア(独自算出の注目度): 26.74984398469168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compositional generalization, the ability to recognize familiar parts in novel contexts, is a defining property of intelligent systems. Although modern models are trained on massive datasets, they still cover only a tiny fraction of the combinatorial space of possible inputs, raising the question of what structure representations must have to support generalization to unseen combinations. We formalize three desiderata for compositional generalization under standard training (divisibility, transferability, stability) and show they impose necessary geometric constraints: representations must decompose linearly into per-concept components, and these components must be orthogonal across concepts. This provides theoretical grounding for the Linear Representation Hypothesis: the linear structure widely observed in neural representations is a necessary consequence of compositional generalization. We further derive dimension bounds linking the number of composable concepts to the embedding geometry. Empirically, we evaluate these predictions across modern vision models (CLIP, SigLIP, DINO) and find that representations exhibit partial linear factorization with low-rank, near-orthogonal per-concept factors, and that the degree of this structure correlates with compositional generalization on unseen combinations. As models continue to scale, these conditions predict the representational geometry they may converge to. Code is available at https://github.com/oshapio/necessary-compositionality.
- Abstract(参考訳): 構成一般化は、新しい文脈で親しみやすい部分を認識する能力であり、インテリジェントシステムの特性を定義するものである。
現代のモデルは大規模なデータセットで訓練されているが、入力の可能な組合せ空間のごく一部しかカバーしていないため、構造表現は目に見えない組み合わせへの一般化を支援する必要があるのかという疑問が提起されている。
標準的な訓練下での合成一般化のための3つのデシラタを形式化し(可分性、移動可能性、安定性)、それらが必要な幾何学的制約を課すことを示す。
これは線形表現仮説の理論的根拠を与える: 神経表現で広く観察される線形構造は、構成的一般化の必然的な結果である。
さらに、構成可能な概念の個数を埋め込み幾何学に結びつける次元境界を導出する。
実験により、これらの予測は現代の視覚モデル(CLIP, SigLIP, DINO)にまたがって評価され、表現は低ランクでほぼ直交する概念因子による偏線形分解を示し、この構造の度合いは、目に見えない組み合わせにおける構成的一般化と相関することがわかった。
モデルがスケールし続けるにつれて、これらの条件はそれらが収束する可能性のある表現幾何学を予測する。
コードはhttps://github.com/oshapio/necessary-compositionality.comで入手できる。
関連論文リスト
- The Representational Geometry of Number [1.5994376682356057]
数値表現はタスク間の安定な関係構造を保っていることを示す。
タスク固有の表現は、分離可能な線形方向に沿ってエンコードされた等級のような低レベルな特徴を持つ、異なる部分空間に埋め込まれている。
このことは、タスク固有の変換が概念表現の共通基盤関係構造に適用されたときに、理解が生じることを示唆している。
論文 参考訳(メタデータ) (2026-02-06T16:35:22Z) - Native Logical and Hierarchical Representations with Subspace Embeddings [25.274936769664098]
線形部分空間として概念を埋め込むという新しいパラダイムを導入する。
交叉(接点)や線形和(接点)のような集合論的な操作を自然にサポートする
提案手法は,WordNet上での再構築とリンク予測の最先端化を実現する。
論文 参考訳(メタデータ) (2025-08-21T18:29:17Z) - Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。
以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。
我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。
この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文 参考訳(メタデータ) (2025-06-28T01:46:36Z) - The Origins of Representation Manifolds in Large Language Models [52.68554895844062]
表現空間におけるコサイン類似性は、最短のオンマンフォールド経路を通して特徴の内在幾何学を符号化することができることを示す。
理論の臨界仮定と予測は、大きな言語モデルのテキスト埋め込みとトークンアクティベーションに基づいて検証される。
論文 参考訳(メタデータ) (2025-05-23T13:31:22Z) - Directional Non-Commutative Monoidal Structures for Compositional Embeddings in Machine Learning [0.0]
指向性非可換モノイド作用素上に構築された合成埋め込みのための新しい構造を導入する。
我々の構成では、各軸 i に対して異なる合成演算子 circ_i を定義し、大域的な可換性を与えることなく、各軸に沿って連想結合を保証する。
すべての軸特異作用素は互いに可換であり、一貫した交叉軸合成を可能にする大域的交換法則を強制する。
論文 参考訳(メタデータ) (2025-05-21T13:27:14Z) - A Theoretical Analysis of Compositional Generalization in Neural Networks: A Necessary and Sufficient Condition [3.09765163299025]
本稿では,ニューラルネットワークの合成一般化に必要かつ十分な条件を導出する。
概念的には、計算グラフは(i)真の構成構造と一致し、(ii)コンポーネントはトレーニングで十分な情報をエンコードする必要がある。
論文 参考訳(メタデータ) (2025-05-05T13:13:46Z) - Compositional Structures in Neural Embedding and Interaction Decompositions [101.40245125955306]
ニューラルネットワークにおけるベクトル埋め込みにおける線形代数構造間の基本的な対応について述べる。
相互作用分解」の観点から構成構造の特徴づけを導入する。
モデルの表現の中にそのような構造が存在するためには、必要かつ十分な条件を確立する。
論文 参考訳(メタデータ) (2024-07-12T02:39:50Z) - When does compositional structure yield compositional generalization? A kernel theory [0.0]
固定された構成的表現を持つカーネルモデルにおける合成一般化の理論を示す。
学習データのバイアスから生じる合成一般化における新しい障害モードを同定する。
本研究は, 学習データの統計的構造が構成一般化にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2024-05-26T00:50:11Z) - What makes Models Compositional? A Theoretical View: With Supplement [60.284698521569936]
本稿では,構成関数の一般神経-記号的定義とその構成複雑性について述べる。
既存の汎用および特殊目的のシーケンス処理モデルがこの定義にどのように適合しているかを示し、それらを用いて構成複雑性を分析する。
論文 参考訳(メタデータ) (2024-05-02T20:10:27Z) - On Provable Length and Compositional Generalization [7.883808173871223]
一般的なシーケンス・ツー・シーケンスモデルに対して、長さと合成の一般化に関する最初の証明可能な保証を提供する。
これらの異なるアーキテクチャのエンハン制限容量バージョンは、長さと構成の一般化の両方を達成することを示す。
論文 参考訳(メタデータ) (2024-02-07T14:16:28Z) - Linear Spaces of Meanings: Compositional Structures in Vision-Language
Models [110.00434385712786]
事前学習された視覚言語モデル(VLM)からのデータ埋め込みにおける構成構造について検討する。
まず,幾何学的観点から構成構造を理解するための枠組みを提案する。
次に、これらの構造がVLM埋め込みの場合の確率論的に持つものを説明し、実際に発生する理由の直観を提供する。
論文 参考訳(メタデータ) (2023-02-28T08:11:56Z) - Frame Averaging for Equivariant Shape Space Learning [85.42901997467754]
形状空間学習に対称性を組み込む自然な方法は、形状空間(エンコーダ)への写像と形状空間(デコーダ)からの写像が関連する対称性に同値であることを問うことである。
本稿では,2つのコントリビューションを導入することで,エンコーダとデコーダの等価性を組み込む枠組みを提案する。
論文 参考訳(メタデータ) (2021-12-03T06:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。