論文の概要: reStructured Pre-training
- arxiv url: http://arxiv.org/abs/2206.11147v1
- Date: Wed, 22 Jun 2022 14:49:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 18:20:17.954794
- Title: reStructured Pre-training
- Title(参考訳): 再構成事前訓練
- Authors: Weizhe Yuan, Pengfei Liu
- Abstract要約: 我々は過去数十年のNLP技術開発の内部関係を解読し、本質を探究する。
このようなパラダイムでは、データの役割は再強調され、データ保存とアクセスのプロセスとして、ダウンストリームタスクの事前トレーニングと微調整をモデル化する。
我々は、いくつかの技術的課題を克服した後、生データではなく、さまざまな貴重な情報からなる再構成されたデータに対してモデルを事前訓練することで、これを実現する。
- 参考スコア(独自算出の注目度): 34.36008855482715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we try to decipher the internal connection of NLP technology
development in the past decades, searching for essence, which rewards us with a
(potential) new learning paradigm for NLP tasks, dubbed as reStructured
Pre-training (RST). In such a paradigm, the role of data will be re-emphasized,
and model pre-training and fine-tuning of downstream tasks are viewed as a
process of data storing and accessing. Based on that, we operationalize the
simple principle that a good storage mechanism should not only have the ability
to cache a large amount of data but also consider the ease of access. We
achieve this by pre-training models over restructured data that consist of a
variety of valuable information instead of raw data after overcoming several
engineering challenges. Experimentally, RST models not only surpass strong
competitors (e.g., T0) on 52/55 popular datasets from a variety of NLP tasks,
but also achieve superior performance in National College Entrance Examination
- English (Gaokao-English),the most authoritative examination in China.
Specifically, the proposed system Qin achieves 40 points higher than the
average scores made by students and 15 points higher than GPT3 with 1/16
parameters. In particular, Qin gets a high score of 138.5 (the full mark is
150) in the 2018 English exam (national paper III). We have released the Gaokao
Benchmark with an online submission platform.
In addition, we test our model in the 2022 College Entrance Examination
English that happened a few days ago (2022.06.08), and it gets a total score of
134 (v.s. GPT3's 108).
- Abstract(参考訳): 本研究では,NLP技術開発における過去数十年の内的つながりを解明し,本質を探究し,reStructured Pre-training (RST)と呼ばれる,NLPタスクのための(潜在的に)新しい学習パラダイムを提案する。
このようなパラダイムでは、データの役割は再強調され、データ保存とアクセスのプロセスとして、ダウンストリームタスクの事前トレーニングと微調整をモデル化する。
これに基づいて、優れたストレージ機構は大量のデータをキャッシュするだけでなく、アクセスの容易性も考慮すべきである、という単純な原則を運用する。
我々は、いくつかの技術的課題を克服した後、生データではなく、さまざまな貴重な情報からなる再構成されたデータに対してモデルを事前訓練することで、これを実現する。
実験的に、RTTモデルは、様々なNLPタスクから52/55の人気のデータセットで強力な競争相手(例えばT0)を上回るだけでなく、中国で最も権威のある試験であるNational College Entrance Examination - English (Gaokao-English)でも優れたパフォーマンスを達成している。
具体的には,提案システムであるQinは,生徒の平均得点よりも40点高く,パラメータが1/16のGPT3よりも15点高い。
特にqinは2018年の英語試験(national paper iii)で138.5点(全点150点)のハイスコアを獲得した。
オンラインの提出プラットフォームを備えたGaokao Benchmarkをリリースしました。
さらに、数日前(2022.06.08)に行われた2022 College Entrance Examination Englishにおいて、我々のモデルをテストし、合計で134点(GPT3の108点)を得た。
関連論文リスト
- New Directions in Text Classification Research: Maximizing The Performance of Sentiment Classification from Limited Data [0.0]
ベンチマークデータセットは、Kaesang Pangarep氏がPSIの議長として任命した問題に関するデータをトレーニングし、テストするためのものだ。
公式スコアはF1スコアであり、正、負、中立の3つのクラスで精度とリコールのバランスをとる。
スコアリング(ベースラインと最適化)はどちらもSVMメソッドを使用し、従来の機械学習手法では最先端と広く報告されている。
論文 参考訳(メタデータ) (2024-07-08T05:42:29Z) - Enhancing Distractor Generation for Multiple-Choice Questions with Retrieval Augmented Pretraining and Knowledge Graph Integration [4.8193608501930845]
複数項目の質問に対して, イントラクタ生成(DG)の課題に取り組む。
そこで本稿では,DGの下流タスクとより緊密に連携するために,言語モデルの事前訓練を改良するテキスト検索型拡張事前学習を提案する。
論文 参考訳(メタデータ) (2024-06-19T14:12:05Z) - Heidelberg-Boston @ SIGTYP 2024 Shared Task: Enhancing Low-Resource Language Analysis With Character-Aware Hierarchical Transformers [2.3020018305241337]
この研究は、13の歴史的言語に対するPoSタグ、形態的タグ付け、および補題化に焦点を当てている。
我々は、Sunなど(2023年)の階層的トークン化手法を適用し、DeBERTa-V3アーキテクチャの利点と組み合わせる。
私たちのモデルは制約付きサブタスクで1位を獲得し、制約のないタスクの勝者のパフォーマンスレベルにほぼ到達しました。
論文 参考訳(メタデータ) (2024-05-30T15:23:34Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - A Kernel-Based View of Language Model Fine-Tuning [94.75146965041131]
ニューラル・タンジェント・カーネル(NTK)が事前学習したLMの微調整を記述しているかどうかを検討する。
本稿では,ダウンストリームタスクを暗黙の単語予測問題として定式化することで,微調整中にカーネルベースのダイナミクスをしばしば引き起こすことを示す。
論文 参考訳(メタデータ) (2022-10-11T17:34:32Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Simpler is Better: off-the-shelf Continual Learning Through Pretrained
Backbones [0.0]
本稿では,コンピュータビジョン問題の連続学習のためのベースライン(オフザシェルフ)を提案する。
事前訓練されたモデルのパワーを利用して、クラスプロトタイプを計算し、メモリバンクを埋めます。
パイプラインを一般的なCNNモデルと比較し、ビジョントランスフォーマーの優位性を示す。
論文 参考訳(メタデータ) (2022-05-03T16:03:46Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Phonemer at WNUT-2020 Task 2: Sequence Classification Using COVID
Twitter BERT and Bagging Ensemble Technique based on Plurality Voting [0.0]
新型コロナウイルス(COVID-19)に関連する英語のつぶやきを自動的に識別するシステムを開発した。
最終アプローチでは0.9037のF1スコアを達成し,F1スコアを評価基準として総合6位にランク付けした。
論文 参考訳(メタデータ) (2020-10-01T10:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。