論文の概要: Rethinking embedding coupling in pre-trained language models
- arxiv url: http://arxiv.org/abs/2010.12821v1
- Date: Sat, 24 Oct 2020 07:43:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 12:09:51.524607
- Title: Rethinking embedding coupling in pre-trained language models
- Title(参考訳): 事前学習言語モデルにおける埋め込み結合の再考
- Authors: Hyung Won Chung, Thibault F\'evry, Henry Tsai, Melvin Johnson,
Sebastian Ruder
- Abstract要約: 我々は、事前学習された言語モデルにおける入力と出力の埋め込みの重みを共有する標準的な方法を再評価する。
分離された埋め込みによりモデリングの柔軟性が向上し、パラメータ割り当ての効率が大幅に向上することを示す。
我々は、微調整段階においてパラメータの数を増やすことなく、XTREMEベンチマークで高い性能を達成するモデルを訓練することができる。
- 参考スコア(独自算出の注目度): 46.11201932668366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We re-evaluate the standard practice of sharing weights between input and
output embeddings in state-of-the-art pre-trained language models. We show that
decoupled embeddings provide increased modeling flexibility, allowing us to
significantly improve the efficiency of parameter allocation in the input
embedding of multilingual models. By reallocating the input embedding
parameters in the Transformer layers, we achieve dramatically better
performance on standard natural language understanding tasks with the same
number of parameters during fine-tuning. We also show that allocating
additional capacity to the output embedding provides benefits to the model that
persist through the fine-tuning stage even though the output embedding is
discarded after pre-training. Our analysis shows that larger output embeddings
prevent the model's last layers from overspecializing to the pre-training task
and encourage Transformer representations to be more general and more
transferable to other tasks and languages. Harnessing these findings, we are
able to train models that achieve strong performance on the XTREME benchmark
without increasing the number of parameters at the fine-tuning stage.
- Abstract(参考訳): 入力と出力の埋め込みの重み付けを最先端の事前学習言語モデルで共有する標準的な実践を再評価する。
分割埋め込みによりモデリングの柔軟性が向上し、多言語モデルの入力埋め込みにおけるパラメータ割り当ての効率が大幅に向上することを示す。
入力の埋め込みパラメータをTransformer層に再配置することで、微調整中に同じ数のパラメータで標準自然言語理解タスクの性能を劇的に向上させる。
また、出力埋め込みが事前学習後に破棄されたとしても、出力埋め込みに余分な容量を割り当てることで、微調整段階を通して継続するモデルに恩恵をもたらすことを示す。
我々の分析によると、より大きな出力埋め込みは、モデルの最後の層が訓練前のタスクに過度に特殊化されることを防ぎ、トランスフォーマー表現をもっと汎用的で、他のタスクや言語に転送できるように促す。
これらの結果から,微調整段階におけるパラメータ数を増大させることなく,XTREMEベンチマークで高い性能を示すモデルを訓練することが可能となった。
関連論文リスト
- GASE: Generatively Augmented Sentence Encoding [0.0]
本稿では,データ拡張のための生成テキストモデルを推論時に適用することにより,文の埋め込みを強化する手法を提案する。
Generatively Augmented Sentenceは、パラフレーズ、要約、あるいはキーワードの抽出によって生成される入力テキストの多様な合成変種を使用する。
生成的拡張により,ベースライン性能の低い埋め込みモデルの性能が向上することが判明した。
論文 参考訳(メタデータ) (2024-11-07T17:53:47Z) - ReTok: Replacing Tokenizer to Enhance Representation Efficiency in Large Language Model [9.1108256816605]
大規模言語モデル(LLM)のトークン化機能を置き換えることにより,モデル表現と処理効率を向上させる手法を提案する。
本手法は,トークン化器を置き換えたモデルの性能を維持しつつ,長文の復号速度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-06T03:01:07Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large
Language Models for Dynamic Inference [32.62084449979531]
SortedNet を Sorted Fine-Tuning (SoFT) に置き換えることで生成 NLP タスクに拡張する。
我々のアプローチはモデル効率を向上し、推論中に様々なシナリオに対する複数のモデルの必要性を排除します。
以上の結果から,SFT+ICT(Early-Exit)と標準ファインチューニング(SFT+ICT)と比較して,サブモデルの優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-16T11:58:34Z) - Leveraging Synthetic Targets for Machine Translation [5.302421715411791]
本研究では,合成目標のトレーニングモデルが実際の地上構造データよりも優れていることを示す。
我々は、この性能向上が最適化の容易性や予測のより決定論的性質に結びついているかどうかを予備分析する。
論文 参考訳(メタデータ) (2023-05-07T07:42:22Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - Investigating Efficiently Extending Transformers for Long Input
Summarization [37.622021824791254]
本稿では,アーキテクチャ変更と事前学習のパラダイムが,長期入力の要約のために,事前学習したトランスフォーマを最も効率的に適用できるかを検討する。
我々は,グローバルトークンを持つブロックローカルトランスフォーマーは,性能と効率のバランスが良いことを見出した。
PEGモデルの拡張であるPEG-Xを導入し、入力を最大16Kのトークンで処理する。
論文 参考訳(メタデータ) (2022-08-08T18:10:58Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Pretrained Transformers as Universal Computation Engines [105.00539596788127]
自然言語で事前学習したトランスフォーマーを,最小限の微調整で他のモダリティに一般化する能力について検討する。
本研究では, 数値計算, 視覚, タンパク質折り畳み予測にまたがる様々なシーケンス分類タスクについて, 微調整を行った。
このようなプリトレーニングにより、FPTはこれらのモダリティにゼロショットで一般化することができ、これらのタスクで完全に訓練されたトランスのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2021-03-09T06:39:56Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。