論文の概要: The Geometric Wall: Manifold Structure Predicts Layerwise Sparse Autoencoder Scaling Laws
- arxiv url: http://arxiv.org/abs/2605.09887v1
- Date: Mon, 11 May 2026 02:24:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.47409
- Title: The Geometric Wall: Manifold Structure Predicts Layerwise Sparse Autoencoder Scaling Laws
- Title(参考訳): 幾何学的壁:マニフォールド構造は階層的にスパースオートエンコーダのスケーリング法則を予測する
- Authors: Eslam Zaher, Maciej Trzaskowski, Quan Nguyen, Fred Roosta,
- Abstract要約: Gemma 2 2B および 9B の68 層に収着・退避する第1 層間SAEスケーリング研究を行った。
多様体幾何は、両方のモデルにおいて、層ごとの幅指数を予測する。
- 参考スコア(独自算出の注目度): 13.054357482525505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) operationalise the linear representation hypothesis: they reconstruct model activations as sparse linear combinations of interpretable dictionary atoms, on the implicit assumption that activation space is well approximated by a globally linear structure. Their reconstruction error varies sharply across layers in ways that existing scaling laws, fitted at single layers, do not explain. We argue that this variation is the empirical trace of a geometric mismatch: where the activation manifold is curved and its intrinsic dimension varies across layers, no sparse linear dictionary can match it uniformly, and the SAE's width-sparsity scaling becomes a layer-dependent function of manifold structure rather than a single universal law. We conduct the first cross-layer SAE scaling study, fitting and regressing on 844 residual-stream Gemma Scope SAE checkpoints across 68 layers of Gemma 2 2B and 9B. Stage 1 fits a per-layer scaling-law surface; Stage 2 regresses the fitted parameters and the derived per-layer width exponents on four layerwise geometric summaries. We find that manifold geometry predicts the per-layer width exponent in both models, and that the same regression coefficients learnt on one model predict the other model's per-layer exponents under cross-model transfer, indicating a transferable geometric law. At the showcase layers where richer width grids permit identification of the asymptotic floor, we find that the fitted floor tracks the layerwise geometric ordering: higher curvature and intrinsic dimension correspond to higher floor, consistent with the irreducible second-order residual that any sparse linear approximation of a curved manifold must leave behind. SAEs thus encounter not a finite-resource ceiling but a geometry-dependent wall, set by the manifold they are trying to reconstruct.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は線形表現仮説(英語版)を演算する:それらは、大域的線形構造によって活性化空間が十分に近似されているという暗黙の仮定に基づいて、解釈可能な辞書原子のスパース線形結合としてモデル活性化を再構成する。
それらの再構成エラーは、既存のスケーリング法則が単一層に適合するが、説明できない方法で、層によって大きく異なる。
この変異は幾何的ミスマッチの経験的トレースであり、活性化多様体が湾曲し、その固有次元が層によって異なる場合、スパース線形辞書は均一に一致せず、SAEの幅スパーシティスケーリングは単一の普遍法則ではなく、多様体構造の層依存関数となる。
Gemma 2 2Bおよび9Bの68層にまたがる844の残留ストリームGemma Scope SAEチェックポイント上で,最初の層間SAEスケーリング研究を行い,適合と回帰を行う。
ステージ1は、層ごとのスケーリング法面に適合し、ステージ2は、4層の幾何学的要約上で、適合したパラメータと導出した層ごとの幅指数を回帰する。
多様体幾何は両方のモデルにおける層幅指数を予測し、同じ回帰係数を1つのモデルで学習すると、他モデルの層幅指数をモデル間移動下で予測し、転送可能な幾何法則を示す。
よりリッチな幅の格子が漸近的な床の同定を許容するショーケース層において, 載置された床は, 層状幾何学的秩序をトラックする。 高い曲率と内在次元は, 曲線多様体の任意のスパース線形近似が残さなければならない既約2階残差と一致する。
したがって、SAEは有限リソース天井ではなく、彼らが再構成しようとしている多様体によって設定された幾何学依存の壁に遭遇する。
関連論文リスト
- A Geometric Perspective on Next-Token Prediction in Large Language Models: Three Emerging Phases [1.157930969832493]
大規模言語モデル(LLM)の層間における予測情報の幾何について検討する。
モデルが各層で何を予測しているかを問うのではなく、予測情報がどこにあり、どのように深みを越えて進化するかを問う。
論文 参考訳(メタデータ) (2026-05-09T15:51:59Z) - A Mean Curvature Approach to Boundary Detection: Geometric Insights for Unsupervised Learning [52.452902154360565]
本稿では,幾何学的機械学習に基づく新しい幾何学的フレームワークであるMean Curvature Boundary Points (MCBP)を紹介する。
MCBPはデータ多様体の固有曲率を明示的にモデル化し、原理化された多様体のパラメトリゼーションを必要としない点平均曲率を計算する。
合成および実世界のデータセットの実験により、MCBPはクラスタリング性能を一貫して改善することを示した。
論文 参考訳(メタデータ) (2026-05-05T20:19:09Z) - Global Geometry of Orthogonal Foliations in the Control Allocation of Signed-Quadratic Systems [3.919116384604024]
この研究は、符号付き4次アクチュエーター写像によって支配される系の冗長分解の微分トポロジーを定式化する。
結果は、マルチロータUAV、海洋、水中車両を含むプロペラ駆動アーキテクチャの制御に直接適用される。
論文 参考訳(メタデータ) (2026-04-02T11:29:19Z) - Latent Semantic Manifolds in Large Language Models [0.0]
本研究では,大規模言語モデルに隠れた状態を潜在意味多様体上の点として解釈する数学的枠組みを開発する。
我々は2つの定理を証明し、任意の有限語彙に対する歪みに対する速度歪みの低い境界と、表現可能性ギャップに対する線形体積スケーリング法則を証明した。
本稿では,アーキテクチャ設計,モデル圧縮,復号化戦略,スケーリング法則について論じる。
論文 参考訳(メタデータ) (2026-03-17T13:05:56Z) - The Neural Differential Manifold: An Architecture with Explicit Geometric Structure [8.201374511929538]
本稿では,その基本設計に幾何学的構造を明示的に組み込んだニューラルネットワークアーキテクチャであるニューラル微分マニフォールド(NDM)を紹介する。
我々は、より効率的な最適化の可能性、継続学習の強化、科学的発見と制御可能な生成モデルへの応用など、このアプローチの理論的利点を分析する。
論文 参考訳(メタデータ) (2025-10-29T02:24:27Z) - Learning Latent Graph Geometry via Fixed-Point Schrödinger-Type Activation: A Theoretical Study [1.1745324895296467]
我々は、学習された潜在グラフ上の散逸的シュリンガー型ダイナミクスの定常状態として内部表現が進化するニューラルアーキテクチャの統一的理論的枠組みを開発する。
我々は、平衡の存在、一意性、滑らかな依存を証明し、力学がノルム保存ランダウ-リフシッツ流にブロッホ写像の下で等価であることを示す。
結果として得られるモデルクラスは、固定点 Schr"odinger 型のアクティベーションを通して潜在グラフ幾何学を学ぶためのコンパクトで幾何学的に解釈可能で解析的に抽出可能な基礎を提供する。
論文 参考訳(メタデータ) (2025-07-27T00:35:15Z) - Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。
以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。
我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。
この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文 参考訳(メタデータ) (2025-06-28T01:46:36Z) - Follow the Energy, Find the Path: Riemannian Metrics from Energy-Based Models [63.331590876872944]
本稿では,事前学習したエネルギーベースモデルから直接リーマン計量を導出する手法を提案する。
これらの測度は空間的に異なる距離を定義し、測地学の計算を可能にする。
EBM由来のメトリクスは、確立されたベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-05-23T12:18:08Z) - HoLa: B-Rep Generation using a Holistic Latent Representation [51.07878285790399]
我々は、$textitboundary representations$ (B-Reps)という形式でコンピュータ支援設計(CAD)モデルを学習し、生成するための新しい表現を導入する。
我々の表現は、B-Repプリミティブの連続幾何学的性質を異なる順序で統一する。
提案手法は生成したB-Repプリミティブ間のあいまいさ,冗長性,不整合性を著しく低減する。
論文 参考訳(メタデータ) (2025-04-19T10:34:24Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。