論文の概要: Flag Varieties: A Geometric Framework for Deep Network Alignment
- arxiv url: http://arxiv.org/abs/2605.09861v1
- Date: Mon, 11 May 2026 01:46:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.459996
- Title: Flag Varieties: A Geometric Framework for Deep Network Alignment
- Title(参考訳): Flag Varieties: ディープネットワークアライメントのための幾何学的フレームワーク
- Authors: Jingchuan Xiao, Xinyi Sui, Cihan Ruan,
- Abstract要約: アライメント、ディープ・ネットワークにおける隣接する重み行列の傾向は、互換性のある部分空間配向、勾配流の地下化、ニューラル・コラプス、アーキテクチャ間の表現類似性を発達させる。
我々はアライメント幾何がフラッグ多様体によって与えられる正準閉多安定層を持つことを証明した。
本稿では,1次原理からのニューラル崩壊におけるレベル2/3階層を,ポストホック解析ではなく,幾何学的に説明する。
- 参考スコア(独自算出の注目度): 1.4273866043218153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Alignment, the tendency of adjacent weight matrices in deep networks to develop compatible subspace orientations, underlies gradient flow, Neural Collapse, and representation similarity across architectures. Despite extensive empirical documentation, these phenomena have resisted unified theoretical treatment: existing explanations are post-hoc, each fitted to a specific observation with whatever mathematics is at hand. We reverse this direction by deriving the mathematical structure that layerwise alignment inherently demands. Using geometric invariant theory, we prove that alignment geometry has a canonical closed, polystable stratum given by a flag variety, and that subspace intersection dimension is its unique reparameterization-invariant observable, establishing that subspace metrics are not empirical conventions but mathematical necessities. This unified framework yields two dynamical consequences: ridge regularization drives subspace alignment at an exponential rate set by weight decay, whereas nonlinear activations induce a commutator obstruction to exact basis alignment, generically present in nonlinear networks and absent in linear ones. Together these give a geometric explanation of the Level-2/3 hierarchy in Neural Collapse from first principles rather than post-hoc analysis. The commutator magnitude and head subspace overlap further serve as weight-space windows into internal alignment structure, requiring no forward passes. Experiments on multilayer perceptrons, residual networks, and pretrained language models support the proposed diagnostics and delineate their scope.
- Abstract(参考訳): アライメント、ディープ・ネットワークにおける隣接する重み行列の傾向は、互換性のある部分空間配向、勾配流の地下化、ニューラル・コラプス、アーキテクチャ間の表現類似性を発達させる。
既存の説明はポストホックであり、それぞれが手元にある数学の特定の観察に適合している。
この方向を逆転させるには、階層的なアライメントが本質的に要求される数学的構造を導出する。
幾何学的不変理論を用いて、アライメント幾何はフラッグ多様体によって与えられる正準閉多安定層を持ち、部分空間交叉次元はその特異な再パラメータ化不変性であり、部分空間測度が経験的な慣例ではなく数学的必要であることを示す。
この統合された枠組みは2つの動的結果をもたらす: リッジ正則化は、ウェイト崩壊によって設定された指数速度で部分空間のアライメントを駆動するが、非線形のアクティベーションは、非線型ネットワークに一般的に存在し、線形のアライメントに存在しない、正確な基底アライメントに通勤者妨害を誘導する。
これらを合わせて、ポストホック解析よりも第一原理からの神経崩壊におけるレベル2/3階層の幾何学的説明を与える。
通勤者の大きさと頭の部分空間は重なり合っており、内部のアライメント構造に重み空間窓として機能し、前方通過は不要である。
多層パーセプトロン、残差ネットワーク、事前訓練された言語モデルの実験は、提案された診断をサポートし、それらのスコープを明確にする。
関連論文リスト
- A Mean Curvature Approach to Boundary Detection: Geometric Insights for Unsupervised Learning [52.452902154360565]
本稿では,幾何学的機械学習に基づく新しい幾何学的フレームワークであるMean Curvature Boundary Points (MCBP)を紹介する。
MCBPはデータ多様体の固有曲率を明示的にモデル化し、原理化された多様体のパラメトリゼーションを必要としない点平均曲率を計算する。
合成および実世界のデータセットの実験により、MCBPはクラスタリング性能を一貫して改善することを示した。
論文 参考訳(メタデータ) (2026-05-05T20:19:09Z) - The Inductive Bias of Convolutional Neural Networks: Locality and Weight Sharing Reshape Implicit Regularization [57.37943479039033]
本研究では,勾配降下における安定性現象によって引き起こされる暗黙の正則化に,アーキテクチャ的帰納バイアスがどう影響するかを考察する。
局所性と重量共有が根本的に変化していることが示されています。
論文 参考訳(メタデータ) (2026-03-05T04:50:51Z) - An Equivariance Toolbox for Learning Dynamics [13.651450618432094]
学習力学の1次制約と2次制約を結合した汎用等分散ツールボックスを開発した。
まず,保護法則と暗黙のバイアス関係を単一アイデンティティの特別な事例として統一する。
2階目では、曲率に関する構造予測を提供する。
論文 参考訳(メタデータ) (2025-12-24T23:42:07Z) - The Neural Differential Manifold: An Architecture with Explicit Geometric Structure [8.201374511929538]
本稿では,その基本設計に幾何学的構造を明示的に組み込んだニューラルネットワークアーキテクチャであるニューラル微分マニフォールド(NDM)を紹介する。
我々は、より効率的な最適化の可能性、継続学習の強化、科学的発見と制御可能な生成モデルへの応用など、このアプローチの理論的利点を分析する。
論文 参考訳(メタデータ) (2025-10-29T02:24:27Z) - Native Logical and Hierarchical Representations with Subspace Embeddings [25.274936769664098]
線形部分空間として概念を埋め込むという新しいパラダイムを導入する。
交叉(接点)や線形和(接点)のような集合論的な操作を自然にサポートする
提案手法は,WordNet上での再構築とリンク予測の最先端化を実現する。
論文 参考訳(メタデータ) (2025-08-21T18:29:17Z) - Learning Latent Graph Geometry via Fixed-Point Schrödinger-Type Activation: A Theoretical Study [1.1745324895296467]
我々は、学習された潜在グラフ上の散逸的シュリンガー型ダイナミクスの定常状態として内部表現が進化するニューラルアーキテクチャの統一的理論的枠組みを開発する。
我々は、平衡の存在、一意性、滑らかな依存を証明し、力学がノルム保存ランダウ-リフシッツ流にブロッホ写像の下で等価であることを示す。
結果として得られるモデルクラスは、固定点 Schr"odinger 型のアクティベーションを通して潜在グラフ幾何学を学ぶためのコンパクトで幾何学的に解釈可能で解析的に抽出可能な基礎を提供する。
論文 参考訳(メタデータ) (2025-07-27T00:35:15Z) - Enforcing Latent Euclidean Geometry in Single-Cell VAEs for Manifold Interpolation [79.27003481818413]
離散的様相変分オートエンコーダの潜在多様体をユークリッド幾何学へ正規化する訓練フレームワークであるFlatVIを紹介する。
遅延空間の直線を復号化された単セル多様体上の測地線に近似させることで、FlatVIは下流アプローチとの整合性を高める。
論文 参考訳(メタデータ) (2025-07-15T23:08:14Z) - Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。
以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。
我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。
この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文 参考訳(メタデータ) (2025-06-28T01:46:36Z) - Equivariant non-linear maps for neural networks on homogeneous spaces [8.944149301388551]
等質空間上の非線形同変ニューラルネットワーク層に対する新しい枠組みを提案する。
我々は、そのような層が満たさなければならない一般化されたステアビリティ制約を導出する。
複数の共通同変ネットワークアーキテクチャが我々のフレームワークからどのように派生するかを実証する。
論文 参考訳(メタデータ) (2025-04-29T17:42:56Z) - Coordinate Independent Convolutional Networks -- Isometry and Gauge
Equivariant Convolutions on Riemannian Manifolds [70.32518963244466]
平坦空間と比較して大きな複雑さは、コンボリューション核が多様体にどのようなアライメントを適用するべきかが不明確であることである。
コーディネート化の特定の選択は、ネットワークの推論に影響を与えるべきではない、と我々は主張する。
座標独立と重み共有の同時要求は、ネットワーク上の同変要求をもたらす。
論文 参考訳(メタデータ) (2021-06-10T19:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。