論文の概要: Span Fine-tuning for Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2108.12848v1
- Date: Sun, 29 Aug 2021 14:11:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-01 03:09:31.042620
- Title: Span Fine-tuning for Pre-trained Language Models
- Title(参考訳): 事前学習型言語モデルのためのスパンファインタニング
- Authors: Rongzhou Bao, Zhuosheng Zhang, Hai Zhao
- Abstract要約: 本稿では,PrLMのためのスパンファインチューニング手法を提案する。
PrLMによって処理されたすべての文は、プリサンプル辞書に従って複数のスパンに分割される。
GLUEベンチマーク実験の結果,提案手法はPrLMを大幅に向上させることがわかった。
- 参考スコア(独自算出の注目度): 43.352833140317486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models (PrLM) have to carefully manage input units when
training on a very large text with a vocabulary consisting of millions of
words. Previous works have shown that incorporating span-level information over
consecutive words in pre-training could further improve the performance of
PrLMs. However, given that span-level clues are introduced and fixed in
pre-training, previous methods are time-consuming and lack of flexibility. To
alleviate the inconvenience, this paper presents a novel span fine-tuning
method for PrLMs, which facilitates the span setting to be adaptively
determined by specific downstream tasks during the fine-tuning phase. In
detail, any sentences processed by the PrLM will be segmented into multiple
spans according to a pre-sampled dictionary. Then the segmentation information
will be sent through a hierarchical CNN module together with the representation
outputs of the PrLM and ultimately generate a span-enhanced representation.
Experiments on GLUE benchmark show that the proposed span fine-tuning method
significantly enhances the PrLM, and at the same time, offer more flexibility
in an efficient way.
- Abstract(参考訳): 事前学習言語モデル(PrLM)は、何百万もの単語からなる語彙を持つ非常に大きなテキストのトレーニングにおいて、入力単位を慎重に管理する必要がある。
前回の研究では、連続した単語にスパンレベルの情報を組み込むことでprlmの性能がさらに向上することが示されている。
しかしながら、事前トレーニングでスパンレベルのヒントが導入され、固定されることを考えると、以前の手法は時間がかかり、柔軟性が欠如している。
この不便を和らげるために,本論文では,微調整フェーズにおいて,特定の下流タスクによってスパン設定が適応的に決定されるような,PRLMのスパン微調整手法を提案する。
詳しくは、PrLMによって処理されたすべての文は、プリサンプル辞書に従って複数のスパンに分割される。
次に、セグメンテーション情報は、PrLMの表現出力とともに階層的なCNNモジュールを通して送信され、最終的にスパンエンハンスド表現を生成する。
GLUEベンチマーク実験により,提案手法はPrLMを大幅に向上させるとともに,効率よく柔軟性を向上することが示された。
関連論文リスト
- SentenceVAE: Enable Next-sentence Prediction for Large Language Models with Faster Speed, Higher Accuracy and Longer Context [49.9628075245959]
本稿では,文中の複数のトークンを1つのトークンに圧縮する文を含む文変分自動エンコーダ(文変分自動エンコーダ)と,それを再構成する文変分自動エンコーダ(文変分自動エンコーダ)を提案する。
提案手法は, 推定速度を204365%高速化し, パープレキシティ(PPL)を4675%まで低減し, メモリオーバーヘッドを8691%削減する。
論文 参考訳(メタデータ) (2024-08-01T15:45:19Z) - Bucket Pre-training is All You Need [9.332544709626875]
大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて例外的な性能を示した。
文書の連結と分割を伴う事前学習のための従来の固定長データ合成戦略は、ノイズを導入し、長距離依存関係をキャプチャするモデルの能力を制限できる。
固定長のパラダイムを超えて,より柔軟で効率的な事前学習手法を提供するマルチポケットデータ合成手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T09:27:23Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Assessing Phrase Break of ESL Speech with Pre-trained Language Models
and Large Language Models [7.782346535009883]
本研究では,事前学習言語モデル (PLM) と大規模言語モデル (LLM) を用いて,ESL学習者の音声における句分割の評価手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T07:10:39Z) - Prompt Tuning for Discriminative Pre-trained Language Models [96.04765512463415]
最近の研究は、自然言語処理(NLP)タスクに事前訓練言語モデル(PLM)を刺激する際の迅速なチューニングの有望な結果を示している。
ELECTRAのような差別的なPLMが、いかに効果的に迅速なチューニングが可能かは、まだ不明である。
DPTは,NLPタスクを識別言語モデリング問題に書き換える,識別型PLMの最初のプロンプトチューニングフレームワークである。
論文 参考訳(メタデータ) (2022-05-23T10:11:50Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z) - CSS-LM: A Contrastive Framework for Semi-supervised Fine-tuning of
Pre-trained Language Models [59.49705076369856]
プレトレーニング言語モデル(PLM)の微調整フェーズを改善するための新しいフレームワークを提案する。
大規模未ラベルコーパスから,タスクに対するドメインレベルおよびクラスレベルの意味的関連性に応じて,正および負のインスタンスを検索する。
次に、検索したラベル付きおよびオリジナルラベル付きの両方のインスタンスに対して、対照的な半教師付き学習を行い、PLMが重要なタスク関連セマンティックな特徴をキャプチャするのを助ける。
論文 参考訳(メタデータ) (2021-02-07T09:27:26Z) - Enhancing Pre-trained Language Model with Lexical Simplification [41.34550924004487]
lexical simplification (ls) は、そのような語彙の多様性を減らすための認識された方法である。
テキスト分類におけるPrLMの性能を効果的に向上する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-12-30T07:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。