論文の概要: Exploring the Impact of Layer Normalization for Zero-shot Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2305.09312v1
- Date: Tue, 16 May 2023 09:37:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 15:26:28.839100
- Title: Exploring the Impact of Layer Normalization for Zero-shot Neural Machine
Translation
- Title(参考訳): ゼロショットニューラルマシン翻訳における層正規化の影響を探る
- Authors: Zhuoyuan Mao, Raj Dabre, Qianying Liu, Haiyue Song, Chenhui Chu, Sadao
Kurohashi
- Abstract要約: 本稿ではゼロショット翻訳(ZST)における層正規化(LayerNorm)の影響について検討する。
ZSTの最近の取り組みはTransformerアーキテクチャをバックボーンとして利用することが多く、LayerNormはデフォルトのレイヤ(PreNorm)の入力に設定されている。
- 参考スコア(独自算出の注目度): 34.597300388169536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the impact of layer normalization (LayerNorm) on zero-shot
translation (ZST). Recent efforts for ZST often utilize the Transformer
architecture as the backbone, with LayerNorm at the input of layers (PreNorm)
set as the default. However, Xu et al. (2019) has revealed that PreNorm carries
the risk of overfitting the training data. Based on this, we hypothesize that
PreNorm may overfit supervised directions and thus have low generalizability
for ZST. Through experiments on OPUS, IWSLT, and Europarl datasets for 54 ZST
directions, we demonstrate that the original Transformer setting of LayerNorm
after residual connections (PostNorm) consistently outperforms PreNorm by up to
12.3 BLEU points. We then study the performance disparities by analyzing the
differences in off-target rates and structural variations between PreNorm and
PostNorm. This study highlights the need for careful consideration of the
LayerNorm setting for ZST.
- Abstract(参考訳): 本稿ではゼロショット翻訳(ZST)における層正規化(LayerNorm)の影響について検討する。
ZSTの最近の取り組みはTransformerアーキテクチャをバックボーンとして利用することが多く、LayerNormはデフォルトのレイヤ(PreNorm)を入力している。
しかしながら、Xu et al. (2019) は、PreNormがトレーニングデータを過度に適合させるリスクを持っていることを明らかにした。
これに基づいて、PreNormは教師付き方向を過度に最適化し、ZSTの一般化性が低いと仮定する。
OPUS、IWSLT、Europarlのデータセットを54ZST方向で実験した結果、残留接続(PostNorm)後のLayerNormのトランスフォーマー設定が、最大12.3BLEUポイントのPreNormを一貫して上回ることを示した。
次に,PreNormとPostNormのオフターゲットレートと構造変化の違いを分析し,性能格差について検討する。
本研究では、ZSTのLayerNorm設定を慎重に検討する必要があることを明らかにする。
関連論文リスト
- CR-SAM: Curvature Regularized Sharpness-Aware Minimization [8.248964912483912]
Sharpness-Aware Minimization (SAM) は,1段階の勾配上昇を近似として,最悪のケース損失を最小限に抑え,一般化性を高めることを目的としている。
本稿では,トレーニングとテストセットの両面における損失景観の曲率を正確に測定する正規化ヘッセントレースを提案する。
特に、損失景観の過度な非線形性に対抗するために、曲率正規化SAM(CR-SAM)を提案する。
論文 参考訳(メタデータ) (2023-12-21T03:46:29Z) - Landslide Surface Displacement Prediction Based on VSXC-LSTM Algorithm [11.282712030154569]
本研究領域における最近の地すべりの実際の一方向表面変位データに関するモデリング研究を行う。
変動モード分解に基づくVMD-SegSigmoid-XGBoost-ClusterLSTMという時系列予測フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-24T04:46:22Z) - Normalization Layers Are All That Sharpness-Aware Minimization Needs [53.799769473526275]
シャープネス認識最小化(SAM)は,ミニマのシャープネスを低減するために提案された。
SAMの逆数ステップにおけるアフィン正規化パラメータ(典型的には総パラメータの0.1%)のみの摂動は、全てのパラメータの摂動よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-07T08:05:46Z) - Sharpness-Aware Training for Free [163.1248341911413]
シャープネスを意識した最小化(SAM)は、損失ランドスケープの幾何学を反映したシャープネス尺度の最小化が一般化誤差を著しく減少させることを示した。
シャープネス・アウェア・トレーニング・フリー(SAF)は、シャープランドスケープをベース上でほぼゼロの計算コストで軽減する。
SAFは、改善された能力で最小限の平らな収束を保証する。
論文 参考訳(メタデータ) (2022-05-27T16:32:43Z) - Can the Transformer Be Used as a Drop-in Replacement for RNNs in
Text-Generating GANs? [0.0]
我々は、優れたテキスト生成敵ネットワーク(GAN)アーキテクチャー-ダイバーシティ・プロモーティングGAN(DPGAN)を用いている。
我々はLSTM層を自己注意型トランスフォーマー層に置き換えて効率を向上する試みを行った。
得られた自己注意 DPGAN (SADPGAN) は, 生成したテキストの性能, 品質, 多様性, 安定性について評価した。
論文 参考訳(メタデータ) (2021-08-26T14:15:36Z) - Pruning Redundant Mappings in Transformer Models via Spectral-Normalized
Identity Prior [54.629850694790036]
スペクトル正規化アイデンティティ事前 (SNIP) は、トランスフォーマーモデルにおける残余モジュール全体をアイデンティティマッピングに向けてペナライズする構造化プルーニング手法である。
5つのGLUEベンチマークタスクでBERTを用いて実験を行い、SNIPが同等の性能を維持しながら効率的な刈り取り結果が得られることを示した。
論文 参考訳(メタデータ) (2020-10-05T05:40:56Z) - Learned Multi-layer Residual Sparsifying Transform Model for Low-dose CT
Reconstruction [11.470070927586017]
スパース変換学習は、高度に効率的なスパースコーディングとオペレータ更新ステップを含む。
本稿では,変換領域残基を層上で共分散したMRST学習モデルを提案する。
論文 参考訳(メタデータ) (2020-05-08T02:36:50Z) - IsoBN: Fine-Tuning BERT with Isotropic Batch Normalization [41.267328947683936]
微調整事前学習言語モデル(PTLM)は、自然言語理解(NLU)タスクのパフォーマンス向上のための一般的なプラクティスである。
最近の表現学習の進歩は、等方的埋め込みは、より高速な収束とより優れた一般化で下流タスクの性能を著しく向上させることができることを示している。
PTLMにおける事前学習した埋め込みの等方性は, 可視化により解析し, 標準偏差の高分散と, 寸法間の高相関の2つの主要な問題点を指摘した。
論文 参考訳(メタデータ) (2020-05-02T11:49:09Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - On Layer Normalization in the Transformer Architecture [112.40350994368741]
まず,学習速度のウォームアップが重要である理由を理論的に検討し,レイヤー正規化の位置が重要であることを示す。
ウォームアップステージのないPre-LNトランスフォーマーはベースラインと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-12T00:33:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。