Fugu-MT 論文翻訳(概要): HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization

論文の概要: HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization

arxiv url: http://arxiv.org/abs/2503.04598v2
Date: Mon, 24 Mar 2025 15:27:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-25 16:32:16.569285
Title: HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization
Title（参考訳）: HybridNorm: ハイブリッド正規化による安定かつ効率的な変圧器訓練を目指して
Authors: Zhijian Zhuo, Yutao Zeng, Ya Wang, Sijun Zhang, Jian Yang, Xiaoqing Li, Xun Zhou, Jinwen Ma,
Abstract要約: 本稿では,プレノーム法とポストノーム法の両方の利点を統合した,単純かつ効果的なハイブリッド正規化戦略を提案する。テストの結果、HybridNormはPre-NormとPost-Normの両方のアプローチを一貫して上回っている。これらの知見は、ディープトランスモデルのトレーニングと性能を改善するためのより安定的で効果的な手法として、HybridNormの可能性を浮き彫りにしている。
参考スコア（独自算出の注目度）: 25.87557024380553
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformers have become the de facto architecture for a wide range of machine learning tasks, particularly in large language models (LLMs). Despite their remarkable performance, challenges remain in training deep transformer networks, especially regarding the location of layer normalization. While Pre-Norm structures facilitate easier training due to their more prominent identity path, they often yield suboptimal performance compared to Post-Norm. In this paper, we propose $\textbf{HybridNorm}$, a straightforward yet effective hybrid normalization strategy that integrates the advantages of both Pre-Norm and Post-Norm approaches. Specifically, HybridNorm employs QKV normalization within the attention mechanism and Post-Norm in the feed-forward network (FFN) of each transformer block. This design not only stabilizes training but also enhances performance, particularly in the context of LLMs. Comprehensive experiments in both dense and sparse architectures show that HybridNorm consistently outperforms both Pre-Norm and Post-Norm approaches, achieving state-of-the-art results across various benchmarks. These findings highlight the potential of HybridNorm as a more stable and effective technique for improving the training and performance of deep transformer models. Code is available at https://github.com/BryceZhuo/HybridNorm.
Abstract（参考訳）: トランスフォーマーは、特に大規模言語モデル(LLM)において、幅広い機械学習タスクのデファクトアーキテクチャとなっている。その顕著な性能にもかかわらず、ディープトランスフォーマーネットワークのトレーニング、特に層正規化の場所に関する課題は残る。プレノーム構造は、より顕著なアイデンティティパスのために訓練を容易にするが、ポストノームに比べ、しばしば準最適性能が得られる。本稿では,プリノームとポストノームの両アプローチの利点を統合する,単純かつ効果的なハイブリッド正規化戦略である$\textbf{HybridNorm}$を提案する。具体的には、HybridNormは、各トランスブロックのフィードフォワードネットワーク(FFN)において、アテンションメカニズムとポストノーム内でQKV正規化を採用する。この設計は訓練を安定させるだけでなく、特にLLMの文脈において性能を向上させる。密度とスパースアーキテクチャの総合的な実験により、HybridNormはPre-NormとPost-Normの両方のアプローチを一貫して上回り、様々なベンチマークで最先端の結果が得られた。これらの結果は、ディープトランスモデルのトレーニングと性能を改善するためのより安定的で効果的な手法として、HybridNormの可能性を浮き彫りにしている。コードはhttps://github.com/BryceZhuo/HybridNorm.comで入手できる。

関連論文リスト

Systems and Algorithms for Convolutional Multi-Hybrid Language Models at Scale [68.6602625868888]
本稿では,2つの簡単な観測に基づいて,畳み込み型マルチハイブリッドアーキテクチャを提案する。ハイブリッドモデルのオペレータは、インコンテキストリコール、マルチトークンリコール、圧縮などのトークン操作タスクにカスタマイズできる。我々は、最適化されたトランスフォーマーの1.2倍から2.9倍、以前の世代のハイブリッドの1.1倍から1.4倍の速さでエンドツーエンドを訓練する。
論文参考訳（メタデータ） (2025-02-25T19:47:20Z)
OT-Transformer: A Continuous-time Transformer Architecture with Optimal Transport Regularization [1.7180235064112577]
制御方程式が変圧器ブロックによってパラメータ化される力学系を考える。最適輸送理論を利用してトレーニング問題を正規化し、トレーニングの安定性を高め、結果として得られるモデルの一般化を改善する。
論文参考訳（メタデータ） (2025-01-30T22:52:40Z)
In-context Learning for Mixture of Linear Regressions: Existence, Generalization and Training Dynamics [34.458004744956334]
高い確率で$mathcalO(sqrtd/n)$の予測誤差を達成できる変換器が存在することを証明した。また, 1 つの線形自己アテンション層を持つ変圧器のトレーニング力学を解析し, 適切なパラメータで, 人口平均平方損失に対する勾配流の最適化が大域的最適に収束することを示した。
論文参考訳（メタデータ） (2024-10-18T05:28:47Z)
ReLU's Revival: On the Entropic Overload in Normalization-Free Large Language Models [3.7802450241986945]
LayerNormは、トレーニングの安定化とスムーズな最適化を保証するため、現代の大規模言語モデル(LLM)において重要なコンポーネントである。本研究は、正規化自由デコーダのみのLLMにおける望ましいアクティベーション関数について検討する。 ReLUは、LayerNormフリーモデルでGELUを著しく上回り、bf 8.2%のパープレキシティ改善をもたらした。
論文参考訳（メタデータ） (2024-10-12T20:26:01Z)
Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文参考訳（メタデータ） (2024-09-28T13:24:11Z)
Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文参考訳（メタデータ） (2024-06-10T17:24:42Z)
MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文参考訳（メタデータ） (2024-05-25T03:24:32Z)
Linearly-evolved Transformer for Pan-sharpening [34.06189165260206]
ビジョン・トランスフォーマー・ファミリーは、地球規模の空間情報モデリング機構によって駆動される衛星パンシャーピング・フィールドを支配してきた。これらの有望なパンシャープ法における標準的なモデリング規則は、変圧器の変種を概ねカスケード的に積み重ねることである。本稿では,効率的な線形進化型変圧器変圧器を提案し,軽量なパンシャーピングフレームワークの構築に利用した。
論文参考訳（メタデータ） (2024-04-19T11:38:34Z)
Unfolding Once is Enough: A Deployment-Friendly Transformer Unit for Super-Resolution [16.54421804141835]
SISRモデルの中間機能の高解像度化は、メモリと計算要求を増加させる。本稿では、SISRタスクのためのデプロイメントフレンドリな内部パッチ変換ネットワーク(DITN)を提案する。我々のモデルは、質的かつ定量的な性能と高いデプロイメント効率で競合する結果を得ることができる。
論文参考訳（メタデータ） (2023-08-05T05:42:51Z)
BranchNorm: Robustly Scaling Extremely Deep Transformers [55.92852268168816]
BranchNormはトレーニング期間に応じてTransformerの非残留ブランチを動的に再スケールする。複数の翻訳タスクの実験結果から、BranchNormはトレーニングの安定性と収束性能のトレードオフを向上することが示された。
論文参考訳（メタデータ） (2023-05-04T12:46:12Z)
Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。 Transformerモデルをより効率的にすることに注力している。
論文参考訳（メタデータ） (2023-02-27T18:18:13Z)
Mnemosyne: Learning to Train Transformers with Transformers [18.36543176998175]
Mnemosyneは最小限の計算資源を必要とする単純なメタトレーニング戦略を用いてトランスフォーマーのトレーニングを成功させることができることを示す。 Mnemosyneは、手作業で設計された一階述語に匹敵する複雑さを提供する。
論文参考訳（メタデータ） (2023-02-02T14:40:28Z)
Regression Transformer: Concurrent Conditional Generation and Regression by Blending Numerical and Textual Tokens [3.421506449201873]
Regression Transformer (RT)は、数値トークンのシーケンスとして連続プロパティをキャストし、それらを従来のトークンと共同でエンコードする。我々はXLNetの目的に対するいくつかの拡張を提案し、プロパティ予測と条件テキスト生成を同時に最適化する交互トレーニングスキームを採用する。このことは、特にプロパティ駆動で、化学またはタンパク質空間の局所的な探索に応用される。
論文参考訳（メタデータ） (2022-02-01T08:57:31Z)
Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。線形複雑リカレント変種は自己回帰生成に適していることが証明されている。この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文参考訳（メタデータ） (2021-03-24T10:50:43Z)
Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。本稿では,自然言語処理タスクにmixupを適用する方法について検討する。我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文参考訳（メタデータ） (2020-10-05T23:37:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。