論文の概要: GeoNorm: Unify Pre-Norm and Post-Norm with Geodesic Optimization
- arxiv url: http://arxiv.org/abs/2601.22095v1
- Date: Thu, 29 Jan 2026 18:31:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.077892
- Title: GeoNorm: Unify Pre-Norm and Post-Norm with Geodesic Optimization
- Title(参考訳): GeoNorm: ジオデシック最適化でプレノームとポストノームを統合する
- Authors: Chuanyang Zheng, Jiankai Sun, Yihang Gao, Chi Wang, Yuehao Wang, Jing Xiong, Liliang Ren, Bo Peng, Qingmei Wang, Xiaoran Shang, Mac Schwager, Anderson Schneider, Yuriy Nevmyvaka, Xiaodong Liu,
- Abstract要約: 標準正規化を多様体上の測地的更新に置き換える新しい方法であるGeoNormを導入する。
総合的な実験により、GeoNormはトランスフォーマーモデルにおける既存の正規化手法を一貫して上回ることを示した。
GeoNorm は標準の Transformer アーキテクチャにシームレスに統合でき、計算コストを抑えることで性能の向上を実現している。
- 参考スコア(独自算出の注目度): 44.04664613316317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The placement of normalization layers, specifically Pre-Norm and Post-Norm, remains an open question in Transformer architecture design. In this work, we rethink these approaches through the lens of manifold optimization, interpreting the outputs of the Feed-Forward Network (FFN) and attention layers as update directions in optimization. Building on this perspective, we introduce GeoNorm, a novel method that replaces standard normalization with geodesic updates on the manifold. Furthermore, analogous to learning rate schedules, we propose a layer-wise update decay for the FFN and attention components. Comprehensive experiments demonstrate that GeoNorm consistently outperforms existing normalization methods in Transformer models. Crucially, GeoNorm can be seamlessly integrated into standard Transformer architectures, achieving performance improvements with negligible additional computational cost.
- Abstract(参考訳): 正規化レイヤ(特にPre-NormとPost-Norm)の配置は、Transformerアーキテクチャ設計において未解決の課題である。
本研究では,これらのアプローチを,FFN(Feed-Forward Network)とアテンションレイヤの出力を最適化の更新方向として解釈し,多様体最適化のレンズを通して再考する。
この観点から、標準正規化を多様体上の測地的更新に置き換える新しい方法であるGeoNormを導入する。
さらに,学習率のスケジュールと類似して,FFNと注目成分の階層的更新減衰を提案する。
総合的な実験により、GeoNormはトランスフォーマーモデルにおける既存の正規化手法を一貫して上回ることを示した。
重要な点として、GeoNormは標準のTransformerアーキテクチャにシームレスに統合することができ、追加の計算コストを無視してパフォーマンスの改善を実現することができる。
関連論文リスト
- A Constrained Optimization Perspective of Unrolled Transformers [77.12297732942095]
我々は、最適化降下アルゴリズムのように振る舞う変圧器の訓練のための制約付き最適化フレームワークを導入する。
拘束型変圧器は摂動の強靭性を実現し,より高い分布分布一般化を維持する。
論文 参考訳(メタデータ) (2026-01-24T02:12:39Z) - The Neural Differential Manifold: An Architecture with Explicit Geometric Structure [8.201374511929538]
本稿では,その基本設計に幾何学的構造を明示的に組み込んだニューラルネットワークアーキテクチャであるニューラル微分マニフォールド(NDM)を紹介する。
我々は、より効率的な最適化の可能性、継続学習の強化、科学的発見と制御可能な生成モデルへの応用など、このアプローチの理論的利点を分析する。
論文 参考訳(メタデータ) (2025-10-29T02:24:27Z) - GeoAda: Efficiently Finetune Geometric Diffusion Models with Equivariant Adapters [61.51810815162003]
制御された生成タスクに対してフレキシブルかつパラメータ効率の良い微調整を可能にするSE(3)-equivariant Adapter framework(GeoAda)を提案する。
GeoAdaは、過剰適合と破滅的な忘れを緩和しながら、モデルの幾何的一貫性を保っている。
我々は、フレーム制御、グローバル制御、サブグラフ制御、広範囲のアプリケーションドメインを含む多様な幾何学的制御タイプにまたがるGeoAdaの適用性を実証する。
論文 参考訳(メタデータ) (2025-07-02T18:44:03Z) - HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization [25.87557024380553]
本稿では,Pre-NormとPost-Normの利点を統合した,シンプルかつ効果的なハイブリッド正規化戦略を提案する。
大規模トランスモデルの実験では、HybridNormはPre-NormとPost-Normの両方のアプローチを一貫して上回っている。
これらの知見は、ディープトランスモデルのトレーニングと性能を改善するためのより安定的で効果的な手法として、HybridNormの可能性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-03-06T16:40:48Z) - ReLU's Revival: On the Entropic Overload in Normalization-Free Large Language Models [3.7802450241986945]
LayerNormは、トレーニングの安定化とスムーズな最適化を保証するため、現代の大規模言語モデル(LLM)において重要なコンポーネントである。
本研究は、正規化自由デコーダのみのLLMにおける望ましいアクティベーション関数について検討する。
ReLUは、LayerNormフリーモデルでGELUを著しく上回り、bf 8.2%のパープレキシティ改善をもたらした。
論文 参考訳(メタデータ) (2024-10-12T20:26:01Z) - GeoGaussian: Geometry-aware Gaussian Splatting for Scene Rendering [83.19049705653072]
ガウススプレイティング最適化の過程で、その構造が意図的に保存されていない場合、シーンの幾何学は徐々に悪化する。
我々はこの問題を緩和するためにGeoGaussianと呼ばれる新しいアプローチを提案する。
提案するパイプラインは、新しいビュー合成と幾何再構成において最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-03-17T20:06:41Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。