論文の概要: Bridging Subword Gaps in Pretrain-Finetune Paradigm for Natural Language
Generation
- arxiv url: http://arxiv.org/abs/2106.06125v1
- Date: Fri, 11 Jun 2021 02:16:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:18:42.920169
- Title: Bridging Subword Gaps in Pretrain-Finetune Paradigm for Natural Language
Generation
- Title(参考訳): 自然言語生成のためのプレトレイン・フィネチューンパラダイムにおけるブリッジングサブワードギャップ
- Authors: Xin Liu, Baosong Yang, Dayiheng Liu, Haibo Zhang, Weihua Luo, Min
Zhang, Haiying Zhang, Jinsong Su
- Abstract要約: プレトレイン・ファインチューン・パラダイムの制限は、1つの大きさの全ての語彙によって引き起こされるその柔軟性にある。
我々は,バニラ・プレトレイン・ファネチューンパイプラインを,追加の埋め込み転送ステップで拡張する。
プレトレイン-ファインチューン方式で様々なNLGタスクを実験する。
- 参考スコア(独自算出の注目度): 43.74565940808031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A well-known limitation in pretrain-finetune paradigm lies in its
inflexibility caused by the one-size-fits-all vocabulary. This potentially
weakens the effect when applying pretrained models into natural language
generation (NLG) tasks, especially for the subword distributions between
upstream and downstream tasks with significant discrepancy. Towards approaching
this problem, we extend the vanilla pretrain-finetune pipeline with an extra
embedding transfer step. Specifically, a plug-and-play embedding generator is
introduced to produce the representation of any input token, according to
pre-trained embeddings of its morphologically similar ones. Thus, embeddings of
mismatch tokens in downstream tasks can also be efficiently initialized. We
conduct experiments on a variety of NLG tasks under the pretrain-finetune
fashion. Experimental results and extensive analyses show that the proposed
strategy offers us opportunities to feel free to transfer the vocabulary,
leading to more efficient and better performed downstream NLG models.
- Abstract(参考訳): プリトレイン・フィニチューンパラダイムにおけるよく知られた制限は、その柔軟性が1つのサイズに適合する語彙によって引き起こされることである。
これは、自然言語生成(nlg)タスクに事前訓練されたモデルを適用する場合、特に上流タスクと下流タスクの間のサブワード分布が著しく異なる場合、効果を弱める可能性がある。
この問題にアプローチするために,バニラプリトレイン-フィニチューンパイプラインを余分な埋め込み転送ステップで拡張する。
具体的には、任意の入力トークンの表現を生成するためのプラグアンドプレイ埋め込みジェネレータを導入する。
したがって、下流タスクへのミスマッチトークンの埋め込みも効率的に初期化できる。
プレトレイン-ファインチューン方式で様々なNLGタスクを実験する。
実験結果と広範な分析結果から,提案手法は語彙の移動を自由に感じられる機会を与え,より効率よく,より優れた下流NLGモデルを実現することが示唆された。
関連論文リスト
- ULTRA-DP: Unifying Graph Pre-training with Multi-task Graph Dual Prompt [67.8934749027315]
本稿では,タスク識別と位置識別をGNNに注入する,グラフハイブリッド事前学習のための統合フレームワークを提案する。
また,約$k$-nearest隣人のグループに基づいた,新しい事前学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:11:13Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - The Inductive Bias of In-Context Learning: Rethinking Pretraining
Example Design [34.900425311720795]
事前学習したNLMは、同じトレーニング例に現れるテキストセグメント間の依存関係を、異なるトレーニング例に現れるテキストセグメント間の依存性よりも強くモデル化できることを示す。
我々は「kNN-Pretraining」を提案する:同じ事前学習例に意味論的に関連のない非隣接文を含めると、文表現の改善とオープンドメイン質問応答能力が得られることを示す。
論文 参考訳(メタデータ) (2021-10-09T11:05:16Z) - Rethinking embedding coupling in pre-trained language models [46.11201932668366]
我々は、事前学習された言語モデルにおける入力と出力の埋め込みの重みを共有する標準的な方法を再評価する。
分離された埋め込みによりモデリングの柔軟性が向上し、パラメータ割り当ての効率が大幅に向上することを示す。
我々は、微調整段階においてパラメータの数を増やすことなく、XTREMEベンチマークで高い性能を達成するモデルを訓練することができる。
論文 参考訳(メタデータ) (2020-10-24T07:43:00Z) - Discriminatively-Tuned Generative Classifiers for Robust Natural
Language Inference [59.62779187457773]
自然言語推論のための生成型分類器(NLI)を提案する。
差別モデルやBERTのような大規模事前学習言語表現モデルを含む5つのベースラインと比較する。
実験の結果、GenNLIはいくつかの挑戦的なNLI実験環境において差別的ベースラインと事前訓練ベースラインの両方に優れていた。
論文 参考訳(メタデータ) (2020-10-08T04:44:00Z) - Variational Neural Machine Translation with Normalizing Flows [13.537869825364718]
変分ニューラルネットワーク変換(VNMT)は、ターゲット翻訳の生成をモデル化するための魅力的なフレームワークである。
本稿では,VNMTフレームワークを最先端のTransformerに適用し,正規化フローに基づくより柔軟な近似後流を導入することを提案する。
論文 参考訳(メタデータ) (2020-05-28T13:30:53Z) - Syntactic Data Augmentation Increases Robustness to Inference Heuristics [27.513414694720716]
BERTのような事前訓練されたニューラルネットワークモデルは、標準データセットに対して高い精度を示すが、制御されたチャレンジセットに対する単語順序に対する感度の驚くべき欠如がある。
我々は,MNLIコーパスからの文に構文変換を適用して生成した構文的情報的例を用いて,標準学習セットを増強するいくつかの手法について検討する。
MNLIテストセットの性能に影響を与えることなく、単語の順序に対する感度を0.28から0.73に診断する制御例におけるBERTの精度を改善した。
論文 参考訳(メタデータ) (2020-04-24T21:35:26Z) - ERNIE-GEN: An Enhanced Multi-Flow Pre-training and Fine-tuning Framework
for Natural Language Generation [44.21363470798758]
ERNIE-GENは、シーケンス事前トレーニングと微調整のための拡張されたマルチフローシーケンスである。
学習と推論の相違を、補充生成機構とノイズ認識生成方式で橋渡しする。
単語単位で予測するのではなく、意味論的に完全であるスパンを連続的に予測するようにモデルを訓練する。
論文 参考訳(メタデータ) (2020-01-26T02:54:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。