論文の概要: On the Geometric Structure of Layer Updates in Deep Language Models
- arxiv url: http://arxiv.org/abs/2604.02459v1
- Date: Thu, 02 Apr 2026 18:44:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.17573
- Title: On the Geometric Structure of Layer Updates in Deep Language Models
- Title(参考訳): 深層言語モデルにおける層更新の幾何学的構造について
- Authors: Jun-Sik Yoo,
- Abstract要約: 深層言語モデルにおける階層更新の幾何学的構造について検討する。
階層的な更新は、支配的なトークンワイズコンポーネントと制限されたトークンワイズ関数クラスによってキャプチャされない残基への分解を許容することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the geometric structure of layer updates in deep language models. Rather than analyzing what information is encoded in intermediate representations, we ask how representations change from one layer to the next. We show that layerwise updates admit a decomposition into a dominant tokenwise component and a residual that is not captured by restricted tokenwise function classes. Across multiple architectures, including Transformers and state-space models, we find that the full layer update is almost perfectly aligned with the tokenwise component, while the residual exhibits substantially weaker alignment, larger angular deviation, and significantly lower projection onto the dominant tokenwise subspace. This indicates that the residual is not merely a small correction, but a geometrically distinct component of the transformation. This geometric separation has functional consequences: approximation error under the restricted tokenwise model is strongly associated with output perturbation, with Spearman correlations often exceeding 0.7 and reaching up to 0.95 in larger models. Together, these results suggest that most layerwise updates behave like structured reparameterizations along a dominant direction, while functionally significant computation is concentrated in a geometrically distinct residual component. Our framework provides a simple, architecture-agnostic method for probing the geometric and functional structure of layer updates in modern language models.
- Abstract(参考訳): 深層言語モデルにおける階層更新の幾何学的構造について検討する。
中間表現でエンコードされている情報を解析する代わりに、ある層から次の層へどのように表現が変化するかを問う。
階層的な更新は、支配的なトークンワイズコンポーネントと制限されたトークンワイズ関数クラスによってキャプチャされない残基への分解を許容することを示す。
トランスフォーマーや状態空間モデルを含む複数のアーキテクチャにわたって、全層更新はトークン単位のコンポーネントとほぼ完全に整合しているのに対し、残余は、かなり弱いアライメント、より大きい角偏差、および支配的なトークン単位のサブ空間へのプロジェクションが著しく低い。
これは、残差が単に小さな補正であるだけでなく、幾何学的に異なる変換成分であることを示している。
この幾何学的分離は機能的な結果をもたらす:制限されたトークンワイドモデルの下での近似誤差は出力の摂動と強く関連しており、スピアマン相関はしばしば0.7を超え、より大きなモデルでは0.95に達する。
これらの結果は、ほとんどの階層的な更新は支配的な方向に沿って構造的再パラメータ化のように振る舞うが、機能的に重要な計算は幾何学的に異なる残留成分に集中していることを示唆している。
我々のフレームワークは,現代の言語モデルにおけるレイヤ更新の幾何学的および機能的構造を探索するための,シンプルでアーキテクチャに依存しない手法を提供する。
関連論文リスト
- Geometry-Preserving Neural Architectures on Manifolds with Boundary [3.6352834408416412]
層間の幾何学的更新をインターリーブする幾何学的アーキテクチャのクラスを提案する。
拘束されたニューラルODEに対する普遍的な近似結果を確立する。
S2 と SO(3) 上の力学と Sd-1 値の特徴の拡散実験は、解析的更新の正確な実現可能性を示している。
論文 参考訳(メタデータ) (2026-02-03T04:09:39Z) - Deep Delta Learning [91.75868893250662]
本稿では,標準残差接続を一般化した新しいアーキテクチャであるDeep Delta Learning(DDL)を紹介する。
我々はこの演算子のスペクトル解析を行い、ゲート$(mathbfX)$がアイデンティティマッピング、投影、幾何反射のダイナミックな相互作用を可能にすることを示した。
この統合により、ネットワークは階層的な遷移作用素のスペクトルを明示的に制御することができ、複雑な非単調力学のモデリングを可能にする。
論文 参考訳(メタデータ) (2026-01-01T18:11:38Z) - Reconstructing Multi-Scale Physical Fields from Extremely Sparse Measurements with an Autoencoder-Diffusion Cascade [38.28865883904372]
Cascaded Sensing (Cas-Sensing)は、自動エンコーダ拡散カスケードを統合する階層的な再構築フレームワークである。
マスクカスケード戦略で訓練された条件拡散モデルにより,大規模構造物に条件付された微細な詳細情報を生成する。
シミュレーションと実世界のデータセットの両方の実験により、Cas-Sensingは様々なセンサー構成と幾何学的境界をまたいでうまく一般化することを示した。
論文 参考訳(メタデータ) (2025-12-01T11:46:14Z) - The Neural Differential Manifold: An Architecture with Explicit Geometric Structure [8.201374511929538]
本稿では,その基本設計に幾何学的構造を明示的に組み込んだニューラルネットワークアーキテクチャであるニューラル微分マニフォールド(NDM)を紹介する。
我々は、より効率的な最適化の可能性、継続学習の強化、科学的発見と制御可能な生成モデルへの応用など、このアプローチの理論的利点を分析する。
論文 参考訳(メタデータ) (2025-10-29T02:24:27Z) - Geometric Properties of Neural Multivariate Regression [3.259067345005505]
崩壊モデルではID_H ID_Yが示され、過剰圧縮と一般化が不十分になる。
特徴次元を拡大または縮小することで性能が向上する2つのレジームを同定する。
論文 参考訳(メタデータ) (2025-10-01T16:50:57Z) - Hierarchical-embedding autoencoder with a predictor (HEAP) as efficient architecture for learning long-term evolution of complex multi-scale physical systems [41.94295877935867]
システム内で動的に現れる様々なスケールの構造は、局所的にのみ相互に相互作用する。
階層的な完全畳み込みオートエンコーダは物理系の状態を一連の埋め込み層に変換する。
様々なスケールの特徴間の相互作用は、畳み込み作用素の組み合わせを用いてモデル化される。
論文 参考訳(メタデータ) (2025-05-24T20:27:16Z) - Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。
フェデレートラーニングにおいて最も顕著に用いられている。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - The geometry of hidden representations of large transformer models [43.16765170255552]
大規模トランスは、さまざまなデータタイプをまたいだ自己教師型データ分析に使用される強力なアーキテクチャである。
データセットのセマンティック構造は、ある表現と次の表現の間の変換のシーケンスから現れることを示す。
本研究は,データセットのセマンティクス情報が第1ピークの終わりによりよく表現されることを示し,この現象を多種多様なデータセットで訓練された多くのモデルで観測できることを示した。
論文 参考訳(メタデータ) (2023-02-01T07:50:26Z) - DepGraph: Towards Any Structural Pruning [68.40343338847664]
我々は、CNN、RNN、GNN、Transformersのような任意のアーキテクチャの一般的な構造解析について研究する。
本稿では,階層間の依存関係を明示的にモデル化し,包括的にグループ化してプルーニングを行う汎用かつ完全自動な手法であるemphDependency Graph(DepGraph)を提案する。
本研究では,画像用ResNe(X)t,DenseNet,MobileNet,Vision Transformer,グラフ用GAT,3Dポイントクラウド用DGCNN,言語用LSTMなど,さまざまなアーキテクチャやタスクに関する手法を広範囲に評価し,言語用LSTMと並行して示す。
論文 参考訳(メタデータ) (2023-01-30T14:02:33Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。