論文の概要: Generate, Annotate, and Learn: Generative Models Advance Self-Training
and Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2106.06168v1
- Date: Fri, 11 Jun 2021 05:01:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:11:20.979395
- Title: Generate, Annotate, and Learn: Generative Models Advance Self-Training
and Knowledge Distillation
- Title(参考訳): 生成・注釈・学習:生成モデルによる自己学習・知識蒸留の促進
- Authors: Xuanli He, Islam Nassar, Jamie Kiros, Gholamreza Haffari, Mohammad
Norouzi
- Abstract要約: Semi-Supervised Learning (SSL)は多くのアプリケーションドメインで成功している。
知識蒸留(KD)により、深層ネットワークとアンサンブルの圧縮が可能となり、新しいタスク固有の未ラベルの例について知識を蒸留する際に最良の結果が得られる。
我々は、非条件生成モデルを用いて、ドメイン内の未ラベルデータを合成する「生成、注釈、学習(GAL)」と呼ばれる一般的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 58.64720318755764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-Supervised Learning (SSL) has seen success in many application domains,
but this success often hinges on the availability of task-specific unlabeled
data. Knowledge distillation (KD) has enabled compressing deep networks and
ensembles, achieving the best results when distilling knowledge on fresh
task-specific unlabeled examples. However, task-specific unlabeled data can be
challenging to find. We present a general framework called "generate, annotate,
and learn (GAL)" that uses unconditional generative models to synthesize
in-domain unlabeled data, helping advance SSL and KD on different tasks. To
obtain strong task-specific generative models, we adopt generic generative
models, pretrained on open-domain data, and fine-tune them on inputs from
specific tasks. Then, we use existing classifiers to annotate generated
unlabeled examples with soft pseudo labels, which are used for additional
training. When self-training is combined with samples generated from
GPT2-large, fine-tuned on the inputs of each GLUE task, we outperform a strong
RoBERTa-large baseline on the GLUE benchmark. Moreover, KD on GPT-2 samples
yields a new state-of-the-art for 6-layer transformers on the GLUE leaderboard.
Finally, self-training with GAL offers significant gains on image
classification on CIFAR-10 and four tabular tasks from the UCI repository
- Abstract(参考訳): Semi-Supervised Learning (SSL)は多くのアプリケーションドメインで成功している。
知識蒸留(kd)は深層ネットワークとアンサンブルの圧縮を可能にし、新しいタスク固有のラベルなしの例で知識を蒸留する場合の最良の結果を得る。
しかし、タスク固有の未ラベルデータを見つけるのは難しい。
我々は,無条件生成モデルを用いて非ラベルデータを合成し,ssl と kd を異なるタスクで前進させる "generate, annotate, learn (gal)" という汎用フレームワークを提案する。
タスク固有の生成モデルを得るために、オープンドメインデータに基づいて事前訓練された汎用生成モデルを採用し、特定のタスクからの入力を微調整する。
次に,既存の分類器を用いて,生成した未ラベルのサンプルにソフトな擬似ラベルをアノテートする。
各GLUEタスクの入力を微調整した GPT2-large から生成されたサンプルと自己学習を組み合わせた場合、GLUEベンチマーク上で強力な RoBERTa-large ベースラインを上回ります。
さらに、GPT-2サンプル上のKDはGLUEリーダーボード上の6層トランスのための新しい最先端技術をもたらす。
最後に、GALによる自己学習は、CIFAR-10の画像分類とUCIレポジトリからの4つの表型タスクに大きく貢献する
関連論文リスト
- A Benchmark Generative Probabilistic Model for Weak Supervised Learning [2.0257616108612373]
アノテーションの負担を軽減するために、弱監視学習アプローチが開発されている。
遅延変数モデル(PLVM)が4つのデータセット間で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2023-03-31T07:06:24Z) - STUNT: Few-shot Tabular Learning with Self-generated Tasks from
Unlabeled Tables [64.0903766169603]
我々は,Unlabeled Tables (STUNT) からの自己生成タスクを作成した,数発のセミ教師付き学習のためのフレームワークを提案する。
私たちのキーとなるアイデアは、ランダムに選択された列をターゲットラベルとして扱うことで、多様なショットタスクを自己生成することです。
次に、メタラーニング手法を用いて、構築されたタスクで一般化可能な知識を学習する。
論文 参考訳(メタデータ) (2023-03-02T02:37:54Z) - Few-Shot Class-Incremental Learning by Sampling Multi-Phase Tasks [59.12108527904171]
モデルは新しいクラスを認識し、古いクラスに対する差別性を維持すべきである。
古いクラスを忘れずに新しいクラスを認識するタスクは、FSCIL ( few-shot class-incremental Learning) と呼ばれる。
我々は,LearnIng Multi-phase Incremental Tasks (LIMIT) によるメタラーニングに基づくFSCILの新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-03-31T13:46:41Z) - Boosting the Performance of Semi-Supervised Learning with Unsupervised
Clustering [10.033658645311188]
学習中の間欠的にラベルを完全に無視することは,小サンプル体制における性能を著しく向上させることを示す。
本手法は,最先端のSSLアルゴリズムの高速化に有効であることを示す。
論文 参考訳(メタデータ) (2020-12-01T14:19:14Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。