論文の概要: Toward Efficient Language Model Pretraining and Downstream Adaptation
via Self-Evolution: A Case Study on SuperGLUE
- arxiv url: http://arxiv.org/abs/2212.01853v1
- Date: Sun, 4 Dec 2022 15:36:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 16:40:10.569775
- Title: Toward Efficient Language Model Pretraining and Downstream Adaptation
via Self-Evolution: A Case Study on SuperGLUE
- Title(参考訳): 自己進化による効率的な言語モデルの事前学習と下流適応に向けて:SuperGLUEを事例として
- Authors: Qihuang Zhong, Liang Ding, Yibing Zhan, Yu Qiao, Yonggang Wen, Li
Shen, Juhua Liu, Baosheng Yu, Bo Du, Yixin Chen, Xinbo Gao, Chunyan Miao,
Xiaoou Tang and Dacheng Tao
- Abstract要約: このレポートでは、スーパーGLUEのリーダーボードにJDExplore d-teamのVega v2を提出しました。
SuperGLUEは、広く使われている汎用言語理解評価(GLUE)ベンチマークよりも難易度が高く、8つの難しい言語理解タスクを含んでいる。
- 参考スコア(独自算出の注目度): 203.65227947509933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This technical report briefly describes our JDExplore d-team's Vega v2
submission on the SuperGLUE leaderboard. SuperGLUE is more challenging than the
widely used general language understanding evaluation (GLUE) benchmark,
containing eight difficult language understanding tasks, including question
answering, natural language inference, word sense disambiguation, coreference
resolution, and reasoning. [Method] Instead of arbitrarily increasing the size
of a pretrained language model (PLM), our aim is to 1) fully extract knowledge
from the input pretraining data given a certain parameter budget, e.g., 6B, and
2) effectively transfer this knowledge to downstream tasks. To achieve goal 1),
we propose self-evolution learning for PLMs to wisely predict the informative
tokens that should be masked, and supervise the masked language modeling (MLM)
process with rectified smooth labels. For goal 2), we leverage the prompt
transfer technique to improve the low-resource tasks by transferring the
knowledge from the foundation model and related downstream tasks to the target
task. [Results] According to our submission record (Oct. 2022), with our
optimized pretraining and fine-tuning strategies, our 6B Vega method achieved
new state-of-the-art performance on 4/8 tasks, sitting atop the SuperGLUE
leaderboard on Oct. 8, 2022, with an average score of 91.3.
- Abstract(参考訳): この技術レポートでは、SuperGLUEのリーダーボードにJDExplore d-teamのVega v2を提出しました。
SuperGLUEは、質問応答、自然言語推論、単語感覚の曖昧さ、コア参照解決、推論を含む8つの難しい言語理解タスクを含む、広く使われている汎用言語理解評価(GLUE)ベンチマークよりも難しい。
[方法]事前訓練された言語モデル(PLM)のサイズを任意に増やすのではなく、我々の目的である。
1)特定のパラメータ予算(例えば6B)が与えられた入力事前学習データから知識を完全に抽出し、
2)この知識を効果的に下流タスクに転送する。
目的1を達成するために, PLMの自己進化学習を提案し, マスクすべき情報トークンを適切に予測し, 修正されたスムーズなラベル付きマスキング言語モデリング(MLM)プロセスを監督する。
目標2)については,基礎モデルと関連する下流タスクの知識を対象タスクに転送することにより,プロンプト転送技術を活用して低リソースタスクを改善する。
結果〕2022年10月8日にスーパーGLUEのリーダーボード上に座って,4/8タスクにおいて,最適化された事前学習と微調整を施した6B Vega法を平均91.3で達成した。
関連論文リスト
- TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - PLUG: Leveraging Pivot Language in Cross-Lingual Instruction Tuning [46.153828074152436]
我々は、低リソース言語における命令チューニングを強化するために、ピボット言語ガイド生成手法を提案する。
モデルを訓練して、まずピボット言語で命令を処理し、次にターゲット言語で応答を生成する。
提案手法は,LLMの命令追従能力が平均29%向上したことを示す。
論文 参考訳(メタデータ) (2023-11-15T05:28:07Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z) - Bag of Tricks for Effective Language Model Pretraining and Downstream
Adaptation: A Case Study on GLUE [93.98660272309974]
このレポートでは、ジェネラル言語理解評価のリーダーボードに関するVega v1を簡潔に紹介します。
GLUEは、質問応答、言語受容性、感情分析、テキスト類似性、パラフレーズ検出、自然言語推論を含む9つの自然言語理解タスクのコレクションである。
最適化された事前学習と微調整の戦略により、13億のモデルは4/9タスクに新しい最先端のタスクを設定し、91.3の平均スコアを達成しました。
論文 参考訳(メタデータ) (2023-02-18T09:26:35Z) - AdaPrompt: Adaptive Model Training for Prompt-based NLP [77.12071707955889]
PLMの継続事前学習のための外部データを適応的に検索するAdaPromptを提案する。
5つのNLPベンチマークの実験結果から、AdaPromptは数ショット設定で標準PLMよりも改善可能であることが示された。
ゼロショット設定では、標準のプロンプトベースの手法を26.35%の相対誤差削減で上回ります。
論文 参考訳(メタデータ) (2022-02-10T04:04:57Z) - Generating Training Data with Language Models: Towards Zero-Shot
Language Understanding [35.92571138322246]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
NLUタスクのゼロショット学習に両タイプのPLMを用いる簡単な手法を提案する。
提案手法は,GLUEベンチマークの7つの分類タスクに対して高い性能を示す。
論文 参考訳(メタデータ) (2022-02-09T16:02:18Z) - Multilingual Speech Recognition using Knowledge Transfer across Learning
Processes [15.927513451432946]
実験結果から,WER全体の3.55%の相対的な減少が得られた。
LEAPとSSLの組み合わせにより、言語IDを使用する場合、WER全体の3.51%が相対的に減少する。
論文 参考訳(メタデータ) (2021-10-15T07:50:27Z) - MC-BERT: Efficient Language Pre-Training via a Meta Controller [96.68140474547602]
大規模事前学習は計算コストが高い。
事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。
本稿では,MC-BERTというメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T09:22:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。