論文の概要: Impossible Distillation: from Low-Quality Model to High-Quality Dataset
& Model for Summarization and Paraphrasing
- arxiv url: http://arxiv.org/abs/2305.16635v1
- Date: Fri, 26 May 2023 05:19:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 16:59:45.784872
- Title: Impossible Distillation: from Low-Quality Model to High-Quality Dataset
& Model for Summarization and Paraphrasing
- Title(参考訳): impossible distillation:低品質モデルから高品質データセットへ : 要約とパラフレージングのためのモデル
- Authors: Jaehun Jung, Peter West, Liwei Jiang, Faeze Brahman, Ximing Lu,
Jillian Fisher, Taylor Sorensen, Yejin Choi
- Abstract要約: 本稿では,市販の言語モデルから直接タスク固有のデータセットを抽出するフレームワークを提案する。
我々は175Bパラメータ GPT-3 を上回り、桁違いに小さいモデルを蒸留することができる。
提案手法の副産物として,3.4M文要約とパラフレーズを含む高品質なデータセットであるDIMSUM+を得る。
- 参考スコア(独自算出の注目度): 49.43956605500996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is commonly perceived that the strongest language models (LMs) rely on a
combination of massive scale, instruction data, and human feedback to perform
specialized tasks -- e.g. summarization and paraphrasing, without supervision.
In this paper, we propose that language models can learn to summarize and
paraphrase sentences, with none of these 3 factors. We present Impossible
Distillation, a framework that distills a task-specific dataset directly from
an off-the-shelf LM, even when it is impossible for the LM itself to reliably
solve the task. By training a student model on the generated dataset and
amplifying its capability through self-distillation, our method yields a
high-quality model and dataset from a low-quality teacher model, without the
need for scale or supervision. Using Impossible Distillation, we are able to
distill an order of magnitude smaller model (with only 770M parameters) that
outperforms 175B parameter GPT-3, in both quality and controllability, as
confirmed by automatic and human evaluations. Furthermore, as a useful
byproduct of our approach, we obtain DIMSUM+, a high-quality dataset with 3.4M
sentence summaries and paraphrases. Our analyses show that this dataset, as a
purely LM-generated corpus, is more diverse and more effective for
generalization to unseen domains than all human-authored datasets -- including
Gigaword with 4M samples.
- Abstract(参考訳): 一般に、最強言語モデル(LM)は、大規模、命令データ、人間のフィードバックを組み合わせて、例えば要約やパラフレージングなど、監督なしに専門的なタスクを実行すると認識されている。
本稿では,これら3つの要素を問わない文の要約と言い換えを学習できる言語モデルを提案する。
LM自体が確実にタスクを解決できない場合でも、既製のLMから直接タスク固有のデータセットを蒸留するフレームワークであるImpossible Distillationを提案する。
生成したデータセット上で生徒モデルを訓練し,自己蒸留によってその能力を増幅することにより,スケールや監督を必要とせず,低品質の教師モデルから高品質なモデルとデータセットを得る。
Inpossible Distillation を用いて、175B パラメータ GPT-3 を品質および可制御性の両方で上回る、桁違いに小さなモデル (770M パラメータのみ) を蒸留することができる。
さらに,提案手法の副産物として,3.4M文要約とパラフレーズを含む高品質なデータセットであるDIMSUM+を得る。
分析の結果、このデータセットは、純粋にlm生成されたコーパスとして、gigawordと4mサンプルを含むすべての人間が許可したデータセットよりも、未承認のドメインへの一般化に多様で効果的であることが分かりました。
関連論文リスト
- Split and Rephrase with Large Language Models [2.7309692684728617]
Split and Rephrase (SPRP) タスクは、複雑な文を短い文法文の列に分割する。
タスク上の大きな言語モデルを評価し、主要なメトリクスに基づいて、技術の現状を大幅に改善できることを示します。
論文 参考訳(メタデータ) (2023-12-18T10:16:37Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with
Language Models [116.19321613273311]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Self-Supervised Dataset Distillation for Transfer Learning [82.09002658558529]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient
Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。
金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:38:48Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z) - Collective Wisdom: Improving Low-resource Neural Machine Translation
using Adaptive Knowledge Distillation [42.38435539241788]
並列文ペアの空白は、バイリンガルで低リソースのシナリオで高品質なニューラルネットワーク翻訳(NMT)モデルをトレーニングする上で、大きなハードルとなる。
そこで本研究では, 蒸留過程における教師モデルの貢献度を動的に調整する適応的知識蒸留手法を提案する。
IWSLTからTED Talksから低リソースの5つの言語ペアへ6つの言語ペアのコレクションを転送する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-10-12T04:26:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。