論文の概要: Exploring the Impact of Layer Normalization for Zero-shot Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2305.09312v1
- Date: Tue, 16 May 2023 09:37:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 15:26:28.839100
- Title: Exploring the Impact of Layer Normalization for Zero-shot Neural Machine
Translation
- Title(参考訳): ゼロショットニューラルマシン翻訳における層正規化の影響を探る
- Authors: Zhuoyuan Mao, Raj Dabre, Qianying Liu, Haiyue Song, Chenhui Chu, Sadao
Kurohashi
- Abstract要約: 本稿ではゼロショット翻訳(ZST)における層正規化(LayerNorm)の影響について検討する。
ZSTの最近の取り組みはTransformerアーキテクチャをバックボーンとして利用することが多く、LayerNormはデフォルトのレイヤ(PreNorm)の入力に設定されている。
- 参考スコア(独自算出の注目度): 34.597300388169536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the impact of layer normalization (LayerNorm) on zero-shot
translation (ZST). Recent efforts for ZST often utilize the Transformer
architecture as the backbone, with LayerNorm at the input of layers (PreNorm)
set as the default. However, Xu et al. (2019) has revealed that PreNorm carries
the risk of overfitting the training data. Based on this, we hypothesize that
PreNorm may overfit supervised directions and thus have low generalizability
for ZST. Through experiments on OPUS, IWSLT, and Europarl datasets for 54 ZST
directions, we demonstrate that the original Transformer setting of LayerNorm
after residual connections (PostNorm) consistently outperforms PreNorm by up to
12.3 BLEU points. We then study the performance disparities by analyzing the
differences in off-target rates and structural variations between PreNorm and
PostNorm. This study highlights the need for careful consideration of the
LayerNorm setting for ZST.
- Abstract(参考訳): 本稿ではゼロショット翻訳(ZST)における層正規化(LayerNorm)の影響について検討する。
ZSTの最近の取り組みはTransformerアーキテクチャをバックボーンとして利用することが多く、LayerNormはデフォルトのレイヤ(PreNorm)を入力している。
しかしながら、Xu et al. (2019) は、PreNormがトレーニングデータを過度に適合させるリスクを持っていることを明らかにした。
これに基づいて、PreNormは教師付き方向を過度に最適化し、ZSTの一般化性が低いと仮定する。
OPUS、IWSLT、Europarlのデータセットを54ZST方向で実験した結果、残留接続(PostNorm)後のLayerNormのトランスフォーマー設定が、最大12.3BLEUポイントのPreNormを一貫して上回ることを示した。
次に,PreNormとPostNormのオフターゲットレートと構造変化の違いを分析し,性能格差について検討する。
本研究では、ZSTのLayerNorm設定を慎重に検討する必要があることを明らかにする。
関連論文リスト
- The Curse of Depth in Large Language Models [28.37870372690079]
本稿では,最近のLarge Language Models(LLMs)における近年の観察に注目し,説明し,対処する概念であるCurse of Depthを紹介する。
この現象は、Llama、Mistral、DeepSeek、QwenといったLLMの最も人気のあるファミリーにまたがって初めて確認した。
実験の結果, モデルサイズを130Mから1Bに分散したLayerNorm Scalingは, Pre-LNと比較して, LLM事前学習性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-02-09T07:03:36Z) - Improved Feature Generating Framework for Transductive Zero-shot Learning [31.656888766677664]
特徴生成適応ネットワークは、目に見えないクラスの高品質な表現を生成するために強力な生成モデルとして登場した。
ゼロショット学習(TZSL)の枠組みにおける未確認クラス事前の重要影響について考察する。
PFA学習(Pseudo-conditional Feature Adversarial)とVER学習(VER)の2つの新しいコンポーネントを組み込んだ改良型特徴生成フレームワークI-VAEGANを紹介する。
論文 参考訳(メタデータ) (2024-12-24T08:42:16Z) - ReLU's Revival: On the Entropic Overload in Normalization-Free Large Language Models [3.7802450241986945]
LayerNormは、トレーニングの安定化とスムーズな最適化を保証するため、現代の大規模言語モデル(LLM)において重要なコンポーネントである。
本研究は、正規化自由デコーダのみのLLMにおける望ましいアクティベーション関数について検討する。
ReLUは、LayerNormフリーモデルでGELUを著しく上回り、bf 8.2%のパープレキシティ改善をもたらした。
論文 参考訳(メタデータ) (2024-10-12T20:26:01Z) - CR-SAM: Curvature Regularized Sharpness-Aware Minimization [8.248964912483912]
Sharpness-Aware Minimization (SAM) は,1段階の勾配上昇を近似として,最悪のケース損失を最小限に抑え,一般化性を高めることを目的としている。
本稿では,トレーニングとテストセットの両面における損失景観の曲率を正確に測定する正規化ヘッセントレースを提案する。
特に、損失景観の過度な非線形性に対抗するために、曲率正規化SAM(CR-SAM)を提案する。
論文 参考訳(メタデータ) (2023-12-21T03:46:29Z) - Landslide Surface Displacement Prediction Based on VSXC-LSTM Algorithm [11.282712030154569]
本研究領域における最近の地すべりの実際の一方向表面変位データに関するモデリング研究を行う。
変動モード分解に基づくVMD-SegSigmoid-XGBoost-ClusterLSTMという時系列予測フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-24T04:46:22Z) - Normalization Layers Are All That Sharpness-Aware Minimization Needs [53.799769473526275]
シャープネス認識最小化(SAM)は,ミニマのシャープネスを低減するために提案された。
SAMの逆数ステップにおけるアフィン正規化パラメータ(典型的には総パラメータの0.1%)のみの摂動は、全てのパラメータの摂動よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-07T08:05:46Z) - Sharpness-Aware Training for Free [163.1248341911413]
シャープネスを意識した最小化(SAM)は、損失ランドスケープの幾何学を反映したシャープネス尺度の最小化が一般化誤差を著しく減少させることを示した。
シャープネス・アウェア・トレーニング・フリー(SAF)は、シャープランドスケープをベース上でほぼゼロの計算コストで軽減する。
SAFは、改善された能力で最小限の平らな収束を保証する。
論文 参考訳(メタデータ) (2022-05-27T16:32:43Z) - Pruning Redundant Mappings in Transformer Models via Spectral-Normalized
Identity Prior [54.629850694790036]
スペクトル正規化アイデンティティ事前 (SNIP) は、トランスフォーマーモデルにおける残余モジュール全体をアイデンティティマッピングに向けてペナライズする構造化プルーニング手法である。
5つのGLUEベンチマークタスクでBERTを用いて実験を行い、SNIPが同等の性能を維持しながら効率的な刈り取り結果が得られることを示した。
論文 参考訳(メタデータ) (2020-10-05T05:40:56Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - On Layer Normalization in the Transformer Architecture [112.40350994368741]
まず,学習速度のウォームアップが重要である理由を理論的に検討し,レイヤー正規化の位置が重要であることを示す。
ウォームアップステージのないPre-LNトランスフォーマーはベースラインと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-12T00:33:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。