論文の概要: Scale Determines Whether Language Models Organize Representation Geometry for Prediction
- arxiv url: http://arxiv.org/abs/2605.17084v1
- Date: Sat, 16 May 2026 17:01:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.347994
- Title: Scale Determines Whether Language Models Organize Representation Geometry for Prediction
- Title(参考訳): 言語モデルが予測のための表現幾何学を体系化するかどうかの尺度決定
- Authors: Weilun Xu,
- Abstract要約: 言語モデルでは、表現が符号化したものはその表現空間の幾何学によって決定される。
層間距離構造が非埋め込み行列$W_U$の読み出し部分空間と整合するかどうかをテストする計量であるSubspace PGAを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In language models, what a representation encodes is determined by the geometry of its representation space: distances, not activations, carry meaning. Existing tools characterize the shape of this geometry but do not ask what that shape is organized for. We introduce Subspace PGA, a metric that tests whether a layer's distance structure aligns with the readout subspace of the unembedding matrix $W_U$ more than with random subspaces of equal size. Across seven Pythia models (70M--6.9B) and three cross-family models, intermediate geometry is significantly organized for prediction (peak $z = 9$--$24$), but the degree is scale-dependent: small models ($d \leq 1024$) progressively lose it at late layers during training -- even as loss keeps improving -- while large models ($d \geq 2048$) preserve it throughout. We trace this to a capacity trade-off: a few dominant directions migrate away from $W_U$'s readout, masking rather than destroying the predictive structure beneath, and removing them restores alignment. Neither spectral metrics nor loss curves capture this distinction. Scale thus determines not only how well a model predicts, but how its representation geometry is organized to do so.
- Abstract(参考訳): 言語モデルにおいて、表現が符号化するものは、その表現空間の幾何学によって決定される: 距離は、アクティベーションではなく、意味を持つ。
既存の道具はこの幾何学の形状を特徴付けるが、その形状が何のために組織されているかは問わない。
層の距離構造が、同じ大きさのランダムな部分空間よりも、非埋め込み行列$W_U$の読み出し部分空間と一致するかどうかをテストする計量であるSubspace PGAを導入する。
7つのPythiaモデル(70M--6.9B)と3つのクロスファミリーモデルのうち、中間幾何学は予測のために著しく整理されている(約$z = 9$--24$)が、その程度はスケールに依存している。
いくつかの支配的な方向は、$W_U$の読み出しから移行し、下の予測構造を破壊するのではなく、マスキングを行い、アライメントを復元します。
スペクトル測度も損失曲線もこの区別を捉えていない。
したがって、スケールはモデルがどのように予測するかだけでなく、その表現幾何学がどのように構成されるかを決定する。
関連論文リスト
- A geometric relation of the error introduced by sampling a language model's output distribution to its internal state [0.0]
GPTスタイルの言語モデルは、予測確率分布が複数のトークンに分散する生成点における単一トークンの変化に敏感である。
このことから,トークン空間の幾何学はモデルが内部的に問題を表現する方法を直接反映していることが示唆された。
論文 参考訳(メタデータ) (2026-05-06T13:28:16Z) - Learning 3D Representations for Spatial Intelligence from Unposed Multi-View Images [81.94999489820974]
UniSplat (UniSplat) は、未提示のマルチビュー画像から3D表現を学習するためのフィードフォワードフレームワークである。
エンコーダにおける幾何誘導を強化するデュアルマスキング戦略を導入する。
第2に,外見のセマンティックな矛盾を解消する粗大なガウス的スプレイティング戦略を開発する。
第3に、予測された3次元点と意味マップを画像平面に相互に関連付ける、ポーズ条件の補正機構を導入する。
論文 参考訳(メタデータ) (2026-04-12T10:36:18Z) - Weber's Law in Transformer Magnitude Representations: Efficient Coding, Representational Geometry, and Psychophysical Laws in Language Models [0.0]
表現幾何学は3大領域にわたって一貫して対数圧縮的であることを示す。
1つのモデルは人間の範囲ウェバー分率(WF = 0.20)を生成し、もう1つのモデルはそうではない。
因果干渉は層解離を示す:初期の層は大きさ処理(4.1xの特異性)に機能的に関連付けられ、その後の層は幾何学が最強である。
論文 参考訳(メタデータ) (2026-03-21T04:38:30Z) - Information Routing in Atomistic Foundation Models: How Task Alignment and Equivariance Shape Linear Disentanglement [0.0]
本稿では,合成信号を線形に投影し,リッジプローブへの幾何的情報アクセス量を測定する合成プローブ分解(CPD)について紹介する。
モデルは、合成除去後にアクセス可能な幾何学的情報で6.6倍の差がある。
また, 非線形プローブは, 残留化表現に対して誤った導出結果をもたらし, 純合成対象に対して$R2 = 0.68$--0.95$を回収し, この設定に対して線形プローブを推奨することを示した。
論文 参考訳(メタデータ) (2026-03-03T16:52:06Z) - Canonicalizing Multimodal Contrastive Representation Learning [76.15228959754727]
ここでは,CLIP,SigLIP,FLAVAなどのモデルファミリにおいて,埋め込み空間間の幾何学的関係が存在することを示す。
この発見は、後方互換性のあるモデルアップグレードを可能にし、コストのかかる再埋め込みを回避し、学習された表現のプライバシに影響を及ぼす。
論文 参考訳(メタデータ) (2026-02-19T18:09:36Z) - Geometric Inductive Biases of Deep Networks: The Role of Data and Architecture [22.225213114532533]
簡単な$textitgeometric invariant (GIH)仮説について検討する。
ニューラルネットワークの入力空間曲率が$textitgeometric invariantのままであることがわかった。
論文 参考訳(メタデータ) (2024-10-15T19:46:09Z) - RBP-Pose: Residual Bounding Box Projection for Category-Level Pose
Estimation [103.74918834553247]
カテゴリーレベルのオブジェクトポーズ推定は、既知のカテゴリの集合からの任意のオブジェクトの3次元メートル法サイズだけでなく、6次元のポーズを予測することを目的としている。
近年の手法では, 観測された点雲を標準空間にマッピングし, 梅山アルゴリズムを用いてポーズとサイズを復元する手法が提案されている。
本稿では,オブジェクトのポーズと残差ベクトルを共同で予測する,幾何学誘導型残差オブジェクト境界ボックス投影ネットワーク RBP-Pose を提案する。
論文 参考訳(メタデータ) (2022-07-30T14:45:20Z) - Neural 3D Scene Reconstruction with the Manhattan-world Assumption [58.90559966227361]
本稿では,多視点画像から3次元屋内シーンを再構築する課題について述べる。
平面的制約は、最近の暗黙の神経表現に基づく再構成手法に便利に組み込むことができる。
提案手法は, 従来の手法よりも3次元再構成品質に優れていた。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z) - Rethinking Semantic Segmentation: A Prototype View [126.59244185849838]
学習不可能なプロトタイプをベースとした非パラメトリックセマンティックセマンティックセマンティクスモデルを提案する。
我々のフレームワークは、いくつかのデータセットに対して魅力的な結果をもたらす。
この作業が、現在のデファクトセマンティックセグメンテーションモデル設計を再考することを期待しています。
論文 参考訳(メタデータ) (2022-03-28T21:15:32Z) - A deep network construction that adapts to intrinsic dimensionality
beyond the domain [79.23797234241471]
本稿では,ReLUを活性化したディープネットワークを用いて,2層合成の近似を$f(x) = g(phi(x))$で検討する。
例えば、低次元埋め込み部分多様体への射影と、低次元集合の集合への距離である。
論文 参考訳(メタデータ) (2020-08-06T09:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。