論文の概要: Dead Directions: Geometric Singular Learning
- arxiv url: http://arxiv.org/abs/2606.05957v1
- Date: Thu, 04 Jun 2026 09:54:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.707227
- Title: Dead Directions: Geometric Singular Learning
- Title(参考訳): 死の方向:幾何学的な特異な学習
- Authors: Tejas Pradeep Shirodkar,
- Abstract要約: 特異学習理論と情報幾何学は、主に別々の語彙で同じパラメータ空間を研究してきた。
我々はそれらを1つのプリミティブ、デッド方向、すなわちフィッシャー計量が退化する単位ベクトルを通してブリッジする。
滑らかな繊維上の選択規則は、この速度を実対数正準しきい値に対する渡辺の単一方向寄与に変換する。
多層K-FAC分解は、各フィッシャーブロックをアクティベーションと勾配側率の積として記述する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Singular learning theory and information geometry have studied the same parameter spaces in mostly separate vocabularies: the former computes Bayesian invariants in resolved coordinates, the latter works in original coordinates under a non-degeneracy assumption that overparameterised models routinely violate. We bridge them through one primitive, the dead direction: a unit vector along which the Fisher metric degenerates, equivalently a tangent to the analytic singular set with a definite KL order, set by how fast the KL divergence vanishes. The two readings name the same vector; our central move shows its KL order is recoverable as the decay rate of the directional Fisher curvature approaching the singularity, in original parameter coordinates and without a Hironaka resolution. A selection rule on smooth fibres translates this rate into Watanabe's single-direction contribution to the real log canonical threshold, and we extend the recovery to multi-component crossings, multiplicity $m$, the singular fluctuation $ν$ (universal in the KL order for 1D directions), prior-RLCT shifts, and tempered posteriors. We then lift this rate to a deep network: a multi-layer K-FAC factorisation writes each Fisher block as a product of activation- and gradient-side rates with a duality between them, instantiated at modern-network primitives (residual streams, layer normalisation, attention). A quotient theorem carries the rate to the gauge quotient $Θ/G$ under gradient flow on a $G$-invariant metric; SGD qualifies, standard Adam does not, and we construct a $G$-equivariant Adam-family preconditioner (DDCAdam) that does. The bridge yields a parameter-coordinate handle on singular geometry, closed-form per-architecture predictions, and a trajectory-rate readout of Watanabe's triple $(λ, m, ν)$ from one checkpoint's forward and backward passes, without posterior sampling.
- Abstract(参考訳): 正則学習理論と情報幾何学は、主に別の語彙で同じパラメータ空間を研究してきた: 前者は分解座標におけるベイズ不変量を計算し、後者は非縮退的仮定の下で、過度にパラメータ化されたモデルが規則的に違反するという元の座標で機能する。
フィッシャー計量が退化する単位ベクトル、同値に、KL の発散の速度によって設定された定値な KL 次数を持つ解析特異集合への接点である。
我々の中心運動は、原パラメータ座標において、その特異点に近づく方向フィッシャー曲率の崩壊速度として、広中分解能のないKL位を回復可能であることを示している。
滑らかな繊維上の選択規則は、この速度を実対数標準しきい値に対する渡辺の単一方向寄与に変換し、回復を多成分交差、多重度$m$、特異揺らぎ$ν$(KL方向の1次元方向のユニバーサル)、先行RLCTシフト、テーパー後部まで拡張する。
マルチレイヤのK-FAC因子化は、各フィッシャーブロックを活性化と勾配の2倍率の積として記述し、現代のネットワークプリミティブ(残留ストリーム、層正規化、注意)でインスタンス化する。
商定理(英: quotient theorem)は、G$不変計量上での勾配流下でのゲージ商$(英語版)/G$(英語版)への速度を持ち、SGDは、標準アダムが不等式を定め、標準アダムは不等式であり、我々は、それを行う$G$同変アダム-ファミリープレコンディショナー(DDCAdam)を構築する。
この橋は、特異幾何学上のパラメータ座標ハンドル、構造毎の閉形式予測、そして1つのチェックポイントの前方および後方通過からワタナベのトリプル$(λ, m, ν)$の軌道速度の読み出しを後方サンプリングなしで得る。
関連論文リスト
- FishBack: Pullback Fisher Geometry for Optimal Activation Steering in Transformers [7.108048394322025]
アクティベーションステアリング法は、出力の振る舞いを制御するために言語モデルの中間表現を変更するが、アクティベーション空間がユークリッドであることを普遍的に仮定する。
モデル自身の出力挙動によって誘導される局所幾何学は、GPT-2上の相対スペクトルノルムにおいて、ユークリッド計量から97%以上逸脱する。
論文 参考訳(メタデータ) (2026-05-17T03:00:16Z) - On Higher-Order Geometric Refinements of Classical Covariance Asymptotics: An Approach via Intrinsic and Extrinsic Information Geometry [0.0]
混合、曲線指数族、潜在変数モデル、多様体-ルートパラメータ空間を含む曲線モデルでは、有限サンプルの振る舞いは予測から体系的に逸脱することができる。
我々は、正規パラメトリック族をフィッシャー制約ラオ計量の((,g))として見ることにより、座標不変な曲率対応の洗練を開発する。
本稿では,学習速度と後進平均二乗誤差における実対数正準しきい値の役割,および正規理論を特殊ケースとして回復する解空間上の曲率に基づく共分散展開について述べる。
論文 参考訳(メタデータ) (2026-04-14T13:40:13Z) - Latent Object Permanence: Topological Phase Transitions, Free-Energy Principles, and Renormalization Group Flows in Deep Transformer Manifolds [0.5729426778193398]
幾何学的および統計的物理レンズを用いた深部変圧器言語モデルにおける多段階推論の出現について検討する。
我々は、フォワードパスを離散粗粒度写像として形式化し、安定な「概念盆地」の出現と、この再正規化のような力学の固定点を関連付ける。
結果として生じる低エントロピー状態は、スペクトルテール崩壊と、表現空間における過渡的で再利用可能なオブジェクトのような構造の形成によって特徴づけられる。
論文 参考訳(メタデータ) (2026-01-16T23:11:02Z) - PAID: Pairwise Angular-Invariant Decomposition for Continual Test-Time Adaptation [70.98107766265636]
本稿では,事前学習した重みの幾何学的特性を出発点として,3つの重要な成分(等級,絶対角,対角構造)を体系的に解析する。
両角構造は多種多様なドメインにわたって安定であり, ドメイン不変な意味情報を符号化し, 適応中に保存すべきことを示唆する。
論文 参考訳(メタデータ) (2025-06-03T05:18:15Z) - Global $\mathcal{L}^2$ minimization at uniform exponential rate via geometrically adapted gradient descent in Deep Learning [1.4050802766699084]
本稿では,ディープラーニング(DL)ネットワークにおける教師あり学習のシナリオについて考察する。
DLネットワークの出力層におけるユークリッド計量に対する勾配流を選択する。
論文 参考訳(メタデータ) (2023-11-27T02:12:02Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - A Simple Convergence Proof of Adam and Adagrad [74.24716715922759]
我々はAdam Adagradと$O(d(N)/st)$アルゴリズムの収束の証明を示す。
Adamはデフォルトパラメータで使用する場合と同じ収束$O(d(N)/st)$で収束する。
論文 参考訳(メタデータ) (2020-03-05T01:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。