論文の概要: Exploring the Impact of Layer Normalization for Zero-shot Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2305.09312v1
- Date: Tue, 16 May 2023 09:37:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-05-17 15:26:28.839100
- Title: Exploring the Impact of Layer Normalization for Zero-shot Neural Machine
Translation
- Title(参考訳): ゼロショットニューラルマシン翻訳における層正規化の影響を探る
- Authors: Zhuoyuan Mao, Raj Dabre, Qianying Liu, Haiyue Song, Chenhui Chu, Sadao
Kurohashi
- Abstract要約: 本稿ではゼロショット翻訳(ZST)における層正規化(LayerNorm)の影響について検討する。
ZSTの最近の取り組みはTransformerアーキテクチャをバックボーンとして利用することが多く、LayerNormはデフォルトのレイヤ(PreNorm)の入力に設定されている。
- 参考スコア(独自算出の注目度): 34.597300388169536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the impact of layer normalization (LayerNorm) on zero-shot
translation (ZST). Recent efforts for ZST often utilize the Transformer
architecture as the backbone, with LayerNorm at the input of layers (PreNorm)
set as the default. However, Xu et al. (2019) has revealed that PreNorm carries
the risk of overfitting the training data. Based on this, we hypothesize that
PreNorm may overfit supervised directions and thus have low generalizability
for ZST. Through experiments on OPUS, IWSLT, and Europarl datasets for 54 ZST
directions, we demonstrate that the original Transformer setting of LayerNorm
after residual connections (PostNorm) consistently outperforms PreNorm by up to
12.3 BLEU points. We then study the performance disparities by analyzing the
differences in off-target rates and structural variations between PreNorm and
PostNorm. This study highlights the need for careful consideration of the
LayerNorm setting for ZST.
- Abstract(参考訳): 本稿ではゼロショット翻訳(ZST)における層正規化(LayerNorm)の影響について検討する。
ZSTの最近の取り組みはTransformerアーキテクチャをバックボーンとして利用することが多く、LayerNormはデフォルトのレイヤ(PreNorm)を入力している。
しかしながら、Xu et al. (2019) は、PreNormがトレーニングデータを過度に適合させるリスクを持っていることを明らかにした。
これに基づいて、PreNormは教師付き方向を過度に最適化し、ZSTの一般化性が低いと仮定する。
OPUS、IWSLT、Europarlのデータセットを54ZST方向で実験した結果、残留接続(PostNorm)後のLayerNormのトランスフォーマー設定が、最大12.3BLEUポイントのPreNormを一貫して上回ることを示した。
次に,PreNormとPostNormのオフターゲットレートと構造変化の違いを分析し,性能格差について検討する。
本研究では、ZSTのLayerNorm設定を慎重に検討する必要があることを明らかにする。
関連論文リスト
- HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization [25.87557024380553]
本稿では,プレノーム法とポストノーム法の両方の利点を統合した,単純かつ効果的なハイブリッド正規化戦略を提案する。
テストの結果、HybridNormはPre-NormとPost-Normの両方のアプローチを一貫して上回っている。
これらの知見は、ディープトランスモデルのトレーニングと性能を改善するためのより安定的で効果的な手法として、HybridNormの可能性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-03-06T16:40:48Z) - The Curse of Depth in Large Language Models [28.37870372690079]
本稿では,最近のLarge Language Models(LLMs)における近年の観察に注目し,説明し,対処する概念であるCurse of Depthを紹介する。
この現象は、Llama、Mistral、DeepSeek、QwenといったLLMの最も人気のあるファミリーにまたがって初めて確認した。
実験の結果, モデルサイズを130Mから1Bに分散したLayerNorm Scalingは, Pre-LNと比較して, LLM事前学習性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-02-09T07:03:36Z) - ReLU's Revival: On the Entropic Overload in Normalization-Free Large Language Models [3.7802450241986945]
LayerNormは、トレーニングの安定化とスムーズな最適化を保証するため、現代の大規模言語モデル(LLM)において重要なコンポーネントである。
本研究は、正規化自由デコーダのみのLLMにおける望ましいアクティベーション関数について検討する。
ReLUは、LayerNormフリーモデルでGELUを著しく上回り、bf 8.2%のパープレキシティ改善をもたらした。
論文 参考訳(メタデータ) (2024-10-12T20:26:01Z) - A Layer Selection Approach to Test Time Adaptation [0.2968738145616401]
テスト時間適応(TTA)は、推論中に事前訓練されたモデルを新しいドメインに適応させることによって、分散シフトの問題に対処する。
提案するGALAは,TTA中に最も有益な更新を行うための新しいレイヤ選択基準である。
論文 参考訳(メタデータ) (2024-04-04T19:55:11Z) - CR-SAM: Curvature Regularized Sharpness-Aware Minimization [8.248964912483912]
Sharpness-Aware Minimization (SAM) は,1段階の勾配上昇を近似として,最悪のケース損失を最小限に抑え,一般化性を高めることを目的としている。
本稿では,トレーニングとテストセットの両面における損失景観の曲率を正確に測定する正規化ヘッセントレースを提案する。
特に、損失景観の過度な非線形性に対抗するために、曲率正規化SAM(CR-SAM)を提案する。
論文 参考訳(メタデータ) (2023-12-21T03:46:29Z) - Landslide Surface Displacement Prediction Based on VSXC-LSTM Algorithm [11.282712030154569]
本研究領域における最近の地すべりの実際の一方向表面変位データに関するモデリング研究を行う。
変動モード分解に基づくVMD-SegSigmoid-XGBoost-ClusterLSTMという時系列予測フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-24T04:46:22Z) - Normalization Layers Are All That Sharpness-Aware Minimization Needs [53.799769473526275]
シャープネス認識最小化(SAM)は,ミニマのシャープネスを低減するために提案された。
SAMの逆数ステップにおけるアフィン正規化パラメータ(典型的には総パラメータの0.1%)のみの摂動は、全てのパラメータの摂動よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-07T08:05:46Z) - Sharpness-Aware Training for Free [163.1248341911413]
シャープネスを意識した最小化(SAM)は、損失ランドスケープの幾何学を反映したシャープネス尺度の最小化が一般化誤差を著しく減少させることを示した。
シャープネス・アウェア・トレーニング・フリー(SAF)は、シャープランドスケープをベース上でほぼゼロの計算コストで軽減する。
SAFは、改善された能力で最小限の平らな収束を保証する。
論文 参考訳(メタデータ) (2022-05-27T16:32:43Z) - Can the Transformer Be Used as a Drop-in Replacement for RNNs in
Text-Generating GANs? [0.0]
我々は、優れたテキスト生成敵ネットワーク(GAN)アーキテクチャー-ダイバーシティ・プロモーティングGAN(DPGAN)を用いている。
我々はLSTM層を自己注意型トランスフォーマー層に置き換えて効率を向上する試みを行った。
得られた自己注意 DPGAN (SADPGAN) は, 生成したテキストの性能, 品質, 多様性, 安定性について評価した。
論文 参考訳(メタデータ) (2021-08-26T14:15:36Z) - Pruning Redundant Mappings in Transformer Models via Spectral-Normalized
Identity Prior [54.629850694790036]
スペクトル正規化アイデンティティ事前 (SNIP) は、トランスフォーマーモデルにおける残余モジュール全体をアイデンティティマッピングに向けてペナライズする構造化プルーニング手法である。
5つのGLUEベンチマークタスクでBERTを用いて実験を行い、SNIPが同等の性能を維持しながら効率的な刈り取り結果が得られることを示した。
論文 参考訳(メタデータ) (2020-10-05T05:40:56Z) - Learned Multi-layer Residual Sparsifying Transform Model for Low-dose CT
Reconstruction [11.470070927586017]
スパース変換学習は、高度に効率的なスパースコーディングとオペレータ更新ステップを含む。
本稿では,変換領域残基を層上で共分散したMRST学習モデルを提案する。
論文 参考訳(メタデータ) (2020-05-08T02:36:50Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - On Layer Normalization in the Transformer Architecture [112.40350994368741]
まず,学習速度のウォームアップが重要である理由を理論的に検討し,レイヤー正規化の位置が重要であることを示す。
ウォームアップステージのないPre-LNトランスフォーマーはベースラインと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-12T00:33:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。