論文の概要: Normalization of Input-output Shared Embeddings in Text Generation
Models
- arxiv url: http://arxiv.org/abs/2001.07885v2
- Date: Fri, 24 Jan 2020 04:42:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 17:54:11.298804
- Title: Normalization of Input-output Shared Embeddings in Text Generation
Models
- Title(参考訳): テキスト生成モデルにおける入出力共有埋め込みの正規化
- Authors: Jinyang Liu, Yujia Zhai, Zizhong Chen
- Abstract要約: 埋め込み重み行列の正規化法は、最先端ニューラルネットワークモデル上で最高の性能を示す。
Transformer-Bigモデルの場合、正規化技術はWMT'16 En-Deデータセットのオリジナルのモデルと比較すると、最大で0.6 BLEUの改善が得られる。
DynamicConvモデルでは、WMT'16 En-Deデータセットで0.5BLEUの改善が達成され、IWSLT 14' De-En翻訳タスクで0.41BLEUの改善が達成される。
- 参考スコア(独自算出の注目度): 5.9704719476473915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Network based models have been state-of-the-art models for various
Natural Language Processing tasks, however, the input and output dimension
problem in the networks has still not been fully resolved, especially in text
generation tasks (e.g. Machine Translation, Text Summarization), in which input
and output both have huge sizes of vocabularies. Therefore, input-output
embedding weight sharing has been introduced and adopted widely, which remains
to be improved. Based on linear algebra and statistical theories, this paper
locates the shortcoming of existed input-output embedding weight sharing
method, then raises methods for improving input-output weight shared embedding,
among which methods of normalization of embedding weight matrices show best
performance. These methods are nearly computational cost-free, can get combined
with other embedding techniques, and show good effectiveness when applied on
state-of-the-art Neural Network models. For Transformer-big models, the
normalization techniques can get at best 0.6 BLEU improvement compared to the
original version of model on WMT'16 En-De dataset, and similar BLEU
improvements on IWSLT 14' datasets. For DynamicConv models, 0.5 BLEU
improvement can be attained on WMT'16 En-De dataset, and 0.41 BLEU improvement
on IWSLT 14' De-En translation task is achieved.
- Abstract(参考訳): ニューラルネットワークベースのモデルは、様々な自然言語処理タスクの最先端モデルであるが、特に、入力と出力の両方が語彙の巨大なサイズを持つテキスト生成タスク(例えば、機械翻訳、テキスト要約)において、ネットワークにおける入出力次元の問題はまだ完全に解決されていない。
そのため、入出力埋込み重量共有が広く導入され、改良が続けられている。
本稿では, 線形代数と統計理論に基づいて, 既設の入出力埋込重量共有法の欠点を把握し, 組込重量行列の正規化法が最高の性能を示すように, 入出力埋込重量共有埋込量改善法を提起する。
これらの手法は計算コストがほとんどなく、他の埋め込み技術と組み合わせることができ、最先端のニューラルネットワークモデルに適用した場合に有効性を示す。
Transformer-Bigモデルの場合、正規化技術はWMT'16 En-Deデータセットのモデルのオリジナルバージョンと比べて最大で0.6BLEUの改善と、IWSLT 14のデータセットのBLEUの改善が可能である。
dynamicconvモデルでは、wmt'16 en-deデータセットで0.5 bleu改善を達成でき、iwslt 14' de-en翻訳タスクで 0.41 bleu改善を達成している。
関連論文リスト
- On LLM-Enhanced Mixed-Type Data Imputation with High-Order Message Passing [29.144451092549048]
データ計算の欠如は、データセットの完全性を達成するために、生データセットの欠落した値をインプットすることを目的としている。
1)数値データと分類データしかサポートしていないか,2)不満足な性能を示す。
We propose UnIMP, a Unified IMPutation framework that leverageing LLM and high-order message passing to enhance the imputation of mixed-type data。
論文 参考訳(メタデータ) (2025-01-04T05:05:44Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large
Language Models for Dynamic Inference [32.62084449979531]
SortedNet を Sorted Fine-Tuning (SoFT) に置き換えることで生成 NLP タスクに拡張する。
我々のアプローチはモデル効率を向上し、推論中に様々なシナリオに対する複数のモデルの必要性を排除します。
以上の結果から,SFT+ICT(Early-Exit)と標準ファインチューニング(SFT+ICT)と比較して,サブモデルの優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-16T11:58:34Z) - Improving Non-autoregressive Translation Quality with Pretrained Language Model, Embedding Distillation and Upsampling Strategy for CTC [51.34222224728979]
本稿では,非自己回帰翻訳(NAT)モデルの翻訳品質を向上させるための一連の革新的な技術を紹介する。
我々は,NATモデルを効果的に訓練するために,CTCの損失を抑えたPMLM(Pretrained Multilingual Language Models)を提案する。
自動回帰モデルと比較して16.35倍の速度向上を示した。
論文 参考訳(メタデータ) (2023-06-10T05:24:29Z) - Fine-grained Text Style Transfer with Diffusion-Based Language Models [50.02698074338317]
微細テキストスタイル転送の標準ベンチマークであるStylePTBデータセットを用いて拡散モデルを構築した。
本モデルでは, 個人と作曲の両方において, 最先端の性能を達成できた。
論文 参考訳(メタデータ) (2023-05-31T02:51:26Z) - N-Grammer: Augmenting Transformers with latent n-grams [35.39961549040385]
本稿では,テキストシーケンスの離散潜在表現から構築したn-gramでモデルを拡張することにより,統計言語モデリングの文献に触発されたトランスフォーマーアーキテクチャの簡易かつ効果的な変更を提案する。
我々は、C4データセットの言語モデリングにおけるN-GrammerモデルとSuperGLUEデータセットのテキスト分類を評価し、TransformerやPrimerといった強力なベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2022-07-13T17:18:02Z) - BERT, mBERT, or BiBERT? A Study on Contextualized Embeddings for Neural
Machine Translation [38.017030073108735]
本稿では,バイリンガル事前学習型言語モデル(BiBERT)が最先端の翻訳性能を実現することを示す。
我々の最良のモデルは、IWSLT'14データセットでは30.45点、IWSLT'14データセットでは38.61点、WMT'14データセットでは31.26点、WMT'14データセットでは34.94点である。
論文 参考訳(メタデータ) (2021-09-09T23:43:41Z) - Meta Back-translation [111.87397401837286]
プリトレーニングされたバック翻訳モデルから擬似並列データを生成する新しい手法を提案する。
本手法は,生成する擬似並列データに対して,検証セット上で良好な処理を行うためのフォワードトランスレーションモデルを訓練するように,事前訓練されたバックトランスレーションモデルを適用するメタラーニングアルゴリズムである。
論文 参考訳(メタデータ) (2021-02-15T20:58:32Z) - Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文 参考訳(メタデータ) (2020-10-05T23:37:30Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。