論文の概要: Query-Key Normalization for Transformers
- arxiv url: http://arxiv.org/abs/2010.04245v1
- Date: Thu, 8 Oct 2020 20:12:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 10:54:39.409909
- Title: Query-Key Normalization for Transformers
- Title(参考訳): 変圧器のクエリーキー正規化
- Authors: Alex Henry, Prudhvi Raj Dachapally, Shubham Pawar, Yuxuan Chen
- Abstract要約: 適応性を犠牲にすることなく, ソフトマックス関数を任意の飽和度に低下させるため, 注意機構を修飾する正規化手法であるQKNormを提案する。
TED Talks corpus と IWSLT'15 の5つの低リソース翻訳ペアに対して,最先端のバイリンガルベンチマークに対する平均 0.928 BLEU の改善を示す。
- 参考スコア(独自算出の注目度): 1.9739445872521841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-resource language translation is a challenging but socially valuable NLP
task. Building on recent work adapting the Transformer's normalization to this
setting, we propose QKNorm, a normalization technique that modifies the
attention mechanism to make the softmax function less prone to arbitrary
saturation without sacrificing expressivity. Specifically, we apply $\ell_2$
normalization along the head dimension of each query and key matrix prior to
multiplying them and then scale up by a learnable parameter instead of dividing
by the square root of the embedding dimension. We show improvements averaging
0.928 BLEU over state-of-the-art bilingual benchmarks for 5 low-resource
translation pairs from the TED Talks corpus and IWSLT'15.
- Abstract(参考訳): 低リソースの言語翻訳は難しいが社会的に価値のあるNLPタスクである。
この設定にトランスフォーマーの正規化を適用した最近の研究に基づいて、注意機構を改良し、表現性を犠牲にすることなく、ソフトマックス関数を任意の飽和にしにくくするQKNormを提案する。
具体的には、各クエリとキーマトリックスの頭次元に沿って$\ell_2$正規化を乗算する前に適用し、埋め込み次元の平方根で割る代わりに学習可能なパラメータでスケールアップする。
TED Talks corpus と IWSLT'15 の5つの低リソース翻訳ペアに対して,最先端のバイリンガルベンチマークに対する平均 0.928 BLEU の改善を示す。
関連論文リスト
- Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - On the Pareto Front of Multilingual Neural Machine Translation [123.94355117635293]
我々は、ニューラルネットワーク翻訳(MNMT)におけるサンプリング比によって、与えられた方向の性能がどう変化するかを検討する。
我々は,MNMTにおけるユニークなパフォーマンストレードオフフロントを予測するために,ダブルパワー法を提案する。
本実験では, トレーニング予算の1/5から1/2に過ぎず, 温度探索法や勾配操作法よりも優れた性能が得られた。
論文 参考訳(メタデータ) (2023-04-06T16:49:19Z) - Binarized Neural Machine Translation [43.488431560851204]
機械翻訳(BMT)に適用したトランスフォーマーの新しいバイナライズ手法を提案する。
1ビットの重みとアクティベーションを使用する場合の膨らませたドット積分散の問題を特定し,対処する。
WMTデータセットの実験では、1ビットのウェイトオンリートランスフォーマーはフロートと同じ品質を達成できるが、サイズは16倍小さい。
論文 参考訳(メタデータ) (2023-02-09T19:27:34Z) - DeepNet: Scaling Transformers to 1,000 Layers [106.33669415337135]
トランスフォーマーの残差接続を修正するための新しい正規化関数(DeepNorm)を導入する。
詳細な理論解析により、モデル更新は安定な方法でバウンドできることが示されている。
トランスフォーマーを1,000層まで拡張することに成功したが、これは従来のディープトランスフォーマーよりも1桁も深い。
論文 参考訳(メタデータ) (2022-03-01T15:36:38Z) - Improving BERT Pretraining with Syntactic Supervision [2.4087148947930634]
双方向マスク型トランスフォーマーは、現在のNLPランドスケープのコアテーマとなっている。
Lassy Largeは、自動的に注釈付きオランダ語のコーパスです。
我々の実験では,構文認識モデルが確立されたベースラインと同等の性能を発揮することを示唆する。
論文 参考訳(メタデータ) (2021-04-21T13:15:58Z) - Smoothing and Shrinking the Sparse Seq2Seq Search Space [2.1828601975620257]
entmaxベースのモデルは、猫を効果的に解決する。
また、Fenchel-Young損失の広い家族にラベルスムーシングを一般化する。
得られたラベルスムーズなエントマックス損失モデルにより,多言語グラフ-音素変換の新たな技術が確立された。
論文 参考訳(メタデータ) (2021-03-18T14:45:38Z) - Neural Inverse Text Normalization [11.240669509034298]
逆テキスト正規化のための効率的かつ堅牢なニューラルソリューションを提案する。
言語の専門家が手作業でカリキュラムを作成する必要なく、他の言語に簡単に拡張できることが示される。
プリトレーニングと融合したトランスベースモデルは、複数のデータセットで一貫して低いwerを達成する。
論文 参考訳(メタデータ) (2021-02-12T07:53:53Z) - Supervised Quantile Normalization for Low-rank Matrix Approximation [50.445371939523305]
我々は、$X$ の値と $UV$ の値を行ワイズで操作できる量子正規化演算子のパラメータを学習し、$X$ の低ランク表現の質を改善する。
本稿では,これらの手法が合成およびゲノムデータセットに適用可能であることを実証する。
論文 参考訳(メタデータ) (2020-02-08T21:06:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。