論文の概要: Representational Capacity: Geometric Limits on Feature Representation in Transformer Language Models
- arxiv url: http://arxiv.org/abs/2606.02765v1
- Date: Mon, 01 Jun 2026 18:28:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.542116
- Title: Representational Capacity: Geometric Limits on Feature Representation in Transformer Language Models
- Title(参考訳): 表現能力:変換言語モデルにおける特徴表現の幾何学的限界
- Authors: Alexander Guha,
- Abstract要約: モデルがサポートできるほぼ直交方向数を推定するためのフレームワークを開発する。
このメトリックを数十のオープンソースモデルに適用すると、高い$varepsilon$を持つモデルと、それを維持する$varepsilon$の低いモデルという2つのクラスが明らかになる。
- 参考スコア(独自算出の注目度): 51.56484100374058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model dimension ($d_{model}$) is a fundamental hyperparameter in transformer language models, yet its role in setting the geometric limits of feature representation remains under-explored. Grounded in the Linear Representation and Superposition Hypotheses - which propose that models encode features as near-orthogonal directions in latent space - we develop a framework for estimating how many such directions a model can support. We first establish the embedding matrix as a measurable proxy for near-orthogonality constraints across the latent space: the boundary between meaningful token relationships and incidental similarity in the pairwise cosine similarity distribution gives a concrete estimate of the model's accepted deviation $\varepsilon$ from perfect orthogonality. Applying this metric across dozens of open-source models reveals two classes: models with high $\varepsilon$ whose embeddings lack near-orthogonal structure, and models with low $\varepsilon$ that maintain it. We then show that the standard Johnson-Lindenstrauss lemma greatly underestimates the packing efficiency of trained representations, and derive an adjusted capacity formula in which the number of near-orthogonal directions depends on the ratio of vectors to dimensions ($k/d$) rather than the raw count - a single modification that cuts prediction error by two orders of magnitude with no extra parameters. Combining these results, we define representational capacity as an upper bound on the number of distinguishable directions available for features and embeddings in a model's latent space. Capacity is exponentially sensitive to $\varepsilon$, and larger models favor tighter orthogonality constraints over maximizing raw capacity - a pattern compatible with several explanations (a stability-capacity trade-off, a ceiling on usable concepts, or confounds with model scale) that we leave to future work.
- Abstract(参考訳): モデル次元(d_{model}$)はトランスフォーマー言語モデルにおける基本的なハイパーパラメータであるが、特徴表現の幾何学的極限の設定におけるその役割は未解明のままである。
線形表現と重畳仮説 (Linear Representation and Superposition hypotheses) - 潜在空間における特徴をほぼ直交方向としてエンコードするモデルを提案する。
有意なトークン関係と、双対コサイン類似性分布における偶伴類似性の境界は、モデルが完全に直交性から許容する偏差$\varepsilon$を具体的に推定する。
このメトリックを数十のオープンソースモデルに適用すると、高い$\varepsilon$を持つモデルと、それを維持する低い$\varepsilon$を持つモデルという2つのクラスが明らかになる。
すると、標準的なジョンソン・リンデンシュトラウス補題は、訓練された表現のパッキング効率を大幅に過小評価し、直交方向の数が原数ではなくベクトルと次元の比(k/d$)に依存するような調整された容量公式を導出する。
これらの結果を組み合わせることで、表現能力は、特徴量やモデルの潜在空間への埋め込みに利用できる識別可能な方向の数に対する上限として定義する。
キャパシティは$\varepsilon$に指数関数的に敏感であり、より大きなモデルは生のキャパシティを最大化するよりも厳密な直交制約を好む。
関連論文リスト
- A Spectral Framework for Closed-Form Relative Density Estimation [0.554780083433538]
線形パラメータ化確率モデルにおける相対対数密度推定のための閉形式スペクトルフレームワークを提案する。
我々は,一階および二階の特徴モーメントのみに基づく明示的なスペクトル式を導出し,固定特徴量に対する発散係数と対数密度ポテンシャルの両方の閉形式推定値を得る。
論文 参考訳(メタデータ) (2026-05-11T14:51:17Z) - Factor Graph-Based Shape Estimation for Continuum Robots via Magnus Expansion [19.359841144204115]
本文は,低次元幾何可変ひずみ(GVS)のパラメータ化係数を因子グラフフレームワーク内で推定することにより,両パラダイムの強度を組み合わせる。
ひずみ場のマグナス展開から導かれる新しい運動因子は、GVSひずみ係数とバックボーンポーズ変数をリンクする事前制約として閉形式ロッド幾何を符号化する。
結果の定式化は、連続体、確率的処理、因子グラフ推論の計算効率を保ちながら、モデルベース制御に直接対応可能なコンパクトな状態ベクトルを生成する。
論文 参考訳(メタデータ) (2026-04-17T01:52:07Z) - Latent Semantic Manifolds in Large Language Models [0.0]
本研究では,大規模言語モデルに隠れた状態を潜在意味多様体上の点として解釈する数学的枠組みを開発する。
我々は2つの定理を証明し、任意の有限語彙に対する歪みに対する速度歪みの低い境界と、表現可能性ギャップに対する線形体積スケーリング法則を証明した。
本稿では,アーキテクチャ設計,モデル圧縮,復号化戦略,スケーリング法則について論じる。
論文 参考訳(メタデータ) (2026-03-17T13:05:56Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
リッジ回帰に関する最近の結果について統一的な視点を提示する。
我々は、物理とディープラーニングの背景を持つ読者を対象に、ランダム行列理論と自由確率の基本的なツールを使用する。
我々の結果は拡張され、初期のスケーリング法則のモデルについて統一的な視点を提供する。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Geometric Neural Diffusion Processes [55.891428654434634]
拡散モデルの枠組みを拡張して、無限次元モデリングに一連の幾何学的先行を組み込む。
これらの条件で、生成関数モデルが同じ対称性を持つことを示す。
論文 参考訳(メタデータ) (2023-07-11T16:51:38Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - High-dimensional limit theorems for SGD: Effective dynamics and critical
scaling [6.950316788263433]
我々は、勾配降下(SGD)の要約統計の軌跡に対する極限定理を証明する。
下記の有効弾道力学が人口減少の勾配流と一致するステップサイズにおける重要なスケーリング体制を示す。
この実効力学の固定点について、対応する拡散極限は極めて複雑であり、さらに退化することもある。
論文 参考訳(メタデータ) (2022-06-08T17:42:18Z) - Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。
言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文 参考訳(メタデータ) (2022-01-08T00:47:50Z) - A Picture's Worth a Thousand Words: Visualizing n-dimensional Overlap in
Logistic Regression Models with Empirical Likelihood [0.0]
多次元予測器の最大推定値に対する感度テストの視点を導入する。
シルヴァプルのよく知られた状態は、既存のR符号で重なり合う状態を評価する過程を機械化する経験的な可能性として翻訳される。
コードは、最小の重複構造を調べ、それらを4つ未満の次元でカタログ化することで重なり合う特性を明らかにするために適用される。
論文 参考訳(メタデータ) (2020-11-15T19:39:56Z) - Exponentially Weighted l_2 Regularization Strategy in Constructing
Reinforced Second-order Fuzzy Rule-based Model [72.57056258027336]
従来の高木スゲノカン(TSK)型ファジィモデルでは、定数あるいは線形関数がファジィ規則の連続部分として使用されるのが普通である。
調和解析で遭遇する重み関数理論にインスパイアされた指数重みアプローチを導入する。
論文 参考訳(メタデータ) (2020-07-02T15:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。