論文の概要: Geometric and Dynamic Scaling in Deep Transformers
- arxiv url: http://arxiv.org/abs/2601.01014v2
- Date: Tue, 06 Jan 2026 01:35:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 13:14:29.372872
- Title: Geometric and Dynamic Scaling in Deep Transformers
- Title(参考訳): 深部変圧器の幾何学的・動的スケーリング
- Authors: Haoran Su, Chenyu You,
- Abstract要約: 我々は、ディープトランスフォーマーの崩壊は基本的に幾何学的な問題であると主張する。
2つの原則によりこれらの障害に対処する統一的な幾何学的枠組みを提案する。
超深層ネットワークにおけるランク崩壊を回避するためには, 動的消去を許容しながら幾何的妥当性を強制することが重要であると予測した。
- 参考スコア(独自算出の注目度): 13.697614668609205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their empirical success, pushing Transformer architectures to extreme depth often leads to a paradoxical failure: representations become increasingly redundant, lose rank, and ultimately collapse. Existing explanations largely attribute this phenomenon to optimization instability or vanishing gradients, yet such accounts fail to explain why collapse persists even under modern normalization and initialization schemes. In this paper, we argue that the collapse of deep Transformers is fundamentally a geometric problem. Standard residual updates implicitly assume that feature accumulation is always beneficial, but offer no mechanism to constrain update directions or to erase outdated information. As depth increases, this leads to systematic drift off the semantic manifold and monotonic feature accumulation, causing representational degeneracy. We propose a unified geometric framework that addresses these failures through two orthogonal principles. First, manifold-constrained hyper-connections restrict residual updates to valid local tangent directions, preventing uncontrolled manifold drift. Second, deep delta learning introduces data-dependent, non-monotonic updates that enable reflection and erasure of redundant features rather than their unconditional accumulation. Together, these mechanisms decouple the direction and sign of feature updates, yielding a stable geometric evolution across depth. We term the resulting architecture the Manifold-Geometric Transformer (MGT). Our analysis predicts that enforcing geometric validity while allowing dynamic erasure is essential for avoiding rank collapse in ultra-deep networks. We outline an evaluation protocol for Transformers exceeding 100 layers to test the hypothesis that geometry, rather than depth itself, is the key limiting factor in deep representation learning.
- Abstract(参考訳): 実証的な成功にもかかわらず、トランスフォーマーアーキテクチャを極端に深みに押し上げると、しばしばパラドックス的な失敗につながる:表現はますます冗長になり、ランクを失い、最終的に崩壊する。
既存の説明では、この現象は安定性の最適化や勾配の消失を主な原因としているが、現代の正規化や初期化のスキームの下でも崩壊が持続する理由を説明できない。
本稿では,深層変圧器の崩壊は基本的に幾何学的問題であると主張する。
標準的な残留更新は、常に機能の蓄積が有用であると暗黙的に仮定するが、更新の方向を制約したり、時代遅れの情報を消去するメカニズムは提供しない。
深さが増加するにつれて、これは意味多様体と単調な特徴蓄積を体系的に退避させ、表現の縮退を引き起こす。
2つの直交原理によりこれらの障害に対処する統一的な幾何学的枠組みを提案する。
第一に、多様体に制約された超接続は、局所接方向の残留更新を制限し、制御不能な多様体のドリフトを防ぐ。
第2に、ディープデルタ学習は、非条件の蓄積ではなく、冗長な機能のリフレクションと消去を可能にする、データ依存の非モノトニックな更新を導入している。
これらのメカニズムは、特徴更新の方向と兆候を分離し、深さにわたって安定した幾何学的進化をもたらす。
得られたアーキテクチャを Manifold-Geometric Transformer (MGT) と呼ぶ。
超深層ネットワークにおけるランク崩壊を回避するためには, 動的消去を許容しながら幾何的妥当性を強制することが重要であると予測した。
本稿では,100層を超えるトランスフォーマーの評価プロトコルについて概説する。
関連論文リスト
- Random-Matrix-Induced Simplicity Bias in Over-parameterized Variational Quantum Circuits [72.0643009153473]
本稿では,観測可能な期待値とパラメータ勾配の両方がシステムサイズに指数関数的に集中するHaar型普遍性クラスに,表現的変分アンサーゼが入ることを示す。
その結果、そのような回路によって誘導される仮説クラスは、近点関数の狭い族に高い確率で崩壊する。
テンソル-ネットワークベースおよびテンソル-ハイパーネットワークパラメータ化を含むテンソル構造VQCは、ハール型普遍性クラスの外にある。
論文 参考訳(メタデータ) (2026-01-05T08:04:33Z) - Deep Delta Learning [91.75868893250662]
本稿では,標準残差接続を一般化した新しいアーキテクチャであるDeep Delta Learning(DDL)を紹介する。
我々はこの演算子のスペクトル解析を行い、ゲート$(mathbfX)$がアイデンティティマッピング、投影、幾何反射のダイナミックな相互作用を可能にすることを示した。
この統合により、ネットワークは階層的な遷移作用素のスペクトルを明示的に制御することができ、複雑な非単調力学のモデリングを可能にする。
論文 参考訳(メタデータ) (2026-01-01T18:11:38Z) - Understanding Scaling Laws in Deep Neural Networks via Feature Learning Dynamics [9.885471525709113]
スケーリング法則は、成功とはどのようなもので、いつ、なぜスケーリングが成功するか、失敗なのかを記述している。
中心的な障害は、大きな深さで特徴学習の厳密な理解が欠如していることである。
論文 参考訳(メタデータ) (2025-12-24T09:39:04Z) - Confidence is Not Competence [7.094715131203088]
生成前評価と解法実行の2段階にわたる内部状態の幾何を解析する。
思考から行動機械への幾何学的複雑さの急激な減少は、自信と能力のギャップを機械的に説明する。
論文 参考訳(メタデータ) (2025-10-24T17:22:48Z) - Understanding Transformers for Time Series: Rank Structure, Flow-of-ranks, and Compressibility [90.894232610821]
我々は、ランク構造のレンズを通してトランスフォーマーを解析する。
時系列埋め込みは急激な減衰特異値スペクトルを示すことを示す。
関連する$Q/K/V$プロジェクションが正確な低ランク近似を持つことを示す。
論文 参考訳(メタデータ) (2025-10-02T23:56:17Z) - Hide & Seek: Transformer Symmetries Obscure Sharpness & Riemannian Geometry Finds It [5.89889361990138]
既存のシャープネス対策は、よりリッチな対称性を持つため、トランスフォーマーには失敗する、と我々は主張する。
我々は、対称性を補正した商多様体上の測地球の観点から、シャープネスの完全な一般概念を提案する。
我々の測地的シャープネスは、テキストと画像の分類タスクの両方において、現実世界のトランスフォーマーに強い相関関係を示す。
論文 参考訳(メタデータ) (2025-05-08T16:51:03Z) - On the Convergence of Gradient Descent for Large Learning Rates [55.33626480243135]
固定ステップサイズを使用すると収束が不可能であることを示す。
正方形損失を持つ線形ニューラルネットワークの場合,これを証明した。
また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - Curve Your Attention: Mixed-Curvature Transformers for Graph
Representation Learning [77.1421343649344]
本稿では,一定曲率空間の積を完全に操作するトランスフォーマーの一般化を提案する。
また、非ユークリッド注意に対するカーネル化されたアプローチを提供し、ノード数とエッジ数に線形に時間とメモリコストでモデルを実行できるようにします。
論文 参考訳(メタデータ) (2023-09-08T02:44:37Z) - Signal Propagation in Transformers: Theoretical Perspectives and the
Role of Rank Collapse [11.486545294602697]
我々はトランスフォーマーにおけるランク崩壊の原因と影響に新たな光を当てた。
トークン表現のランク崩壊は,クエリやキーの勾配がなくなることによって,トレーニングを妨げていることを示す。
論文 参考訳(メタデータ) (2022-06-07T09:07:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。