Fugu-MT 論文翻訳(概要): Bridging Subword Gaps in Pretrain-Finetune Paradigm for Natural Language Generation

論文の概要: Bridging Subword Gaps in Pretrain-Finetune Paradigm for Natural Language Generation

arxiv url: http://arxiv.org/abs/2106.06125v1
Date: Fri, 11 Jun 2021 02:16:13 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-14 14:18:42.920169
Title: Bridging Subword Gaps in Pretrain-Finetune Paradigm for Natural Language Generation
Title（参考訳）: 自然言語生成のためのプレトレイン・フィネチューンパラダイムにおけるブリッジングサブワードギャップ
Authors: Xin Liu, Baosong Yang, Dayiheng Liu, Haibo Zhang, Weihua Luo, Min Zhang, Haiying Zhang, Jinsong Su
Abstract要約: プレトレイン・ファインチューン・パラダイムの制限は、1つの大きさの全ての語彙によって引き起こされるその柔軟性にある。我々は,バニラ・プレトレイン・ファネチューンパイプラインを,追加の埋め込み転送ステップで拡張する。プレトレイン-ファインチューン方式で様々なNLGタスクを実験する。
参考スコア（独自算出の注目度）: 43.74565940808031
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A well-known limitation in pretrain-finetune paradigm lies in its inflexibility caused by the one-size-fits-all vocabulary. This potentially weakens the effect when applying pretrained models into natural language generation (NLG) tasks, especially for the subword distributions between upstream and downstream tasks with significant discrepancy. Towards approaching this problem, we extend the vanilla pretrain-finetune pipeline with an extra embedding transfer step. Specifically, a plug-and-play embedding generator is introduced to produce the representation of any input token, according to pre-trained embeddings of its morphologically similar ones. Thus, embeddings of mismatch tokens in downstream tasks can also be efficiently initialized. We conduct experiments on a variety of NLG tasks under the pretrain-finetune fashion. Experimental results and extensive analyses show that the proposed strategy offers us opportunities to feel free to transfer the vocabulary, leading to more efficient and better performed downstream NLG models.
Abstract（参考訳）: プリトレイン・フィニチューンパラダイムにおけるよく知られた制限は、その柔軟性が1つのサイズに適合する語彙によって引き起こされることである。これは、自然言語生成(nlg)タスクに事前訓練されたモデルを適用する場合、特に上流タスクと下流タスクの間のサブワード分布が著しく異なる場合、効果を弱める可能性がある。この問題にアプローチするために,バニラプリトレイン-フィニチューンパイプラインを余分な埋め込み転送ステップで拡張する。具体的には、任意の入力トークンの表現を生成するためのプラグアンドプレイ埋め込みジェネレータを導入する。したがって、下流タスクへのミスマッチトークンの埋め込みも効率的に初期化できる。プレトレイン-ファインチューン方式で様々なNLGタスクを実験する。実験結果と広範な分析結果から,提案手法は語彙の移動を自由に感じられる機会を与え,より効率よく,より優れた下流NLGモデルを実現することが示唆された。

関連論文リスト

Parameter-Efficient Transformer Embeddings [0.0]
本稿では,トークンの埋め込みベクトルをトークンIDから直接決定的に生成する手法を提案する。自然言語推論タスクで標準トランスフォーマーとアーキテクチャをトレーニングします。提案手法は, パラメータをはるかに少なくし, 高速かつ効果的に動作し, ドロップアウトを必要とせずに性能を向上することを示した。
論文参考訳（メタデータ） (2025-05-04T21:47:18Z)
Learning and Transferring Sparse Contextual Bigrams with Linear Transformers [47.37256334633102]
スパース・コン・ビグラム(Sparse Con Bigram)モデルを導入し、次のトークンの生成は、最後のトークンによって決定される以前の位置のスパースセットに依存する。勾配アルゴリズムを用いた一層線形変圧器を用いて,SCB学習のトレーニングダイナミクスとサンプル複雑性を解析した。下流と事前学習タスクの間に非自明な相関関係があることを証明し、事前訓練されたモデルから微調整することで、初期サンプル集約段階を回避できることを証明した。
論文参考訳（メタデータ） (2024-10-30T20:29:10Z)
Pre-trained Language Models Improve the Few-shot Prompt Ability of Decision Transformer [10.338170161831496]
決定変換器(DT)は、オフライン強化学習(RL)タスクにおいて、有望なアルゴリズムのクラスとして登場した。本稿では,Language model-d Prompt Transformer (LPDT)を紹介し,Language model-d Prompt Transformer (LPDT)について述べる。我々のアプローチは、事前訓練された言語モデルとRLタスクをシームレスに統合する。
論文参考訳（メタデータ） (2024-08-02T17:25:34Z)
Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文参考訳（メタデータ） (2024-07-01T15:43:25Z)
Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。本手法は, 標準確率流モデルの再構成に基づく。実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文参考訳（メタデータ） (2024-03-25T17:58:22Z)
Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。 GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文参考訳（メタデータ） (2023-12-19T06:06:30Z)
ULTRA-DP: Unifying Graph Pre-training with Multi-task Graph Dual Prompt [67.8934749027315]
本稿では,タスク識別と位置識別をGNNに注入する,グラフハイブリッド事前学習のための統合フレームワークを提案する。また,約$k$-nearest隣人のグループに基づいた,新しい事前学習パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-23T12:11:13Z)
Instruction Position Matters in Sequence Generation with Large Language Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文参考訳（メタデータ） (2023-08-23T12:36:57Z)
Rethinking embedding coupling in pre-trained language models [46.11201932668366]
我々は、事前学習された言語モデルにおける入力と出力の埋め込みの重みを共有する標準的な方法を再評価する。分離された埋め込みによりモデリングの柔軟性が向上し、パラメータ割り当ての効率が大幅に向上することを示す。我々は、微調整段階においてパラメータの数を増やすことなく、XTREMEベンチマークで高い性能を達成するモデルを訓練することができる。
論文参考訳（メタデータ） (2020-10-24T07:43:00Z)
Syntactic Data Augmentation Increases Robustness to Inference Heuristics [27.513414694720716]
BERTのような事前訓練されたニューラルネットワークモデルは、標準データセットに対して高い精度を示すが、制御されたチャレンジセットに対する単語順序に対する感度の驚くべき欠如がある。我々は,MNLIコーパスからの文に構文変換を適用して生成した構文的情報的例を用いて,標準学習セットを増強するいくつかの手法について検討する。 MNLIテストセットの性能に影響を与えることなく、単語の順序に対する感度を0.28から0.73に診断する制御例におけるBERTの精度を改善した。
論文参考訳（メタデータ） (2020-04-24T21:35:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。