論文の概要: Impossible Distillation: from Low-Quality Model to High-Quality Dataset
& Model for Summarization and Paraphrasing
- arxiv url: http://arxiv.org/abs/2305.16635v1
- Date: Fri, 26 May 2023 05:19:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 16:59:45.784872
- Title: Impossible Distillation: from Low-Quality Model to High-Quality Dataset
& Model for Summarization and Paraphrasing
- Title(参考訳): impossible distillation:低品質モデルから高品質データセットへ : 要約とパラフレージングのためのモデル
- Authors: Jaehun Jung, Peter West, Liwei Jiang, Faeze Brahman, Ximing Lu,
Jillian Fisher, Taylor Sorensen, Yejin Choi
- Abstract要約: 本稿では,市販の言語モデルから直接タスク固有のデータセットを抽出するフレームワークを提案する。
我々は175Bパラメータ GPT-3 を上回り、桁違いに小さいモデルを蒸留することができる。
提案手法の副産物として,3.4M文要約とパラフレーズを含む高品質なデータセットであるDIMSUM+を得る。
- 参考スコア(独自算出の注目度): 49.43956605500996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is commonly perceived that the strongest language models (LMs) rely on a
combination of massive scale, instruction data, and human feedback to perform
specialized tasks -- e.g. summarization and paraphrasing, without supervision.
In this paper, we propose that language models can learn to summarize and
paraphrase sentences, with none of these 3 factors. We present Impossible
Distillation, a framework that distills a task-specific dataset directly from
an off-the-shelf LM, even when it is impossible for the LM itself to reliably
solve the task. By training a student model on the generated dataset and
amplifying its capability through self-distillation, our method yields a
high-quality model and dataset from a low-quality teacher model, without the
need for scale or supervision. Using Impossible Distillation, we are able to
distill an order of magnitude smaller model (with only 770M parameters) that
outperforms 175B parameter GPT-3, in both quality and controllability, as
confirmed by automatic and human evaluations. Furthermore, as a useful
byproduct of our approach, we obtain DIMSUM+, a high-quality dataset with 3.4M
sentence summaries and paraphrases. Our analyses show that this dataset, as a
purely LM-generated corpus, is more diverse and more effective for
generalization to unseen domains than all human-authored datasets -- including
Gigaword with 4M samples.
- Abstract(参考訳): 一般に、最強言語モデル(LM)は、大規模、命令データ、人間のフィードバックを組み合わせて、例えば要約やパラフレージングなど、監督なしに専門的なタスクを実行すると認識されている。
本稿では,これら3つの要素を問わない文の要約と言い換えを学習できる言語モデルを提案する。
LM自体が確実にタスクを解決できない場合でも、既製のLMから直接タスク固有のデータセットを蒸留するフレームワークであるImpossible Distillationを提案する。
生成したデータセット上で生徒モデルを訓練し,自己蒸留によってその能力を増幅することにより,スケールや監督を必要とせず,低品質の教師モデルから高品質なモデルとデータセットを得る。
Inpossible Distillation を用いて、175B パラメータ GPT-3 を品質および可制御性の両方で上回る、桁違いに小さなモデル (770M パラメータのみ) を蒸留することができる。
さらに,提案手法の副産物として,3.4M文要約とパラフレーズを含む高品質なデータセットであるDIMSUM+を得る。
分析の結果、このデータセットは、純粋にlm生成されたコーパスとして、gigawordと4mサンプルを含むすべての人間が許可したデータセットよりも、未承認のドメインへの一般化に多様で効果的であることが分かりました。
関連論文リスト
- Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Baby Llama: knowledge distillation from an ensemble of teachers trained
on a small dataset with no performance penalty [0.0]
我々は,GPT-2と小さなLLaMAモデルからなるアンサンブルを,発達的に予測可能な10MワードのBabyLMデータセットで訓練した。
我々は, 58MパラメータのLLaMAモデルを用いて蒸留を行った。
論文 参考訳(メタデータ) (2023-08-03T20:20:01Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - Too Brittle To Touch: Comparing the Stability of Quantization and
Distillation Towards Developing Lightweight Low-Resource MT Models [12.670354498961492]
最先端の機械翻訳モデルは、しばしば低リソース言語のデータに適応することができる。
知識蒸留(Knowledge Distillation)は、競争力のある軽量モデルを開発するための一般的な技術である。
論文 参考訳(メタデータ) (2022-10-27T05:30:13Z) - Referee: Reference-Free Sentence Summarization with Sharper
Controllability through Symbolic Knowledge Distillation [72.70058049274664]
文献要約のための新しい枠組みであるRefereeについて紹介する(つまり、監督のために金の要約を必要としない)。
我々の研究は、シンボリック知識蒸留の概念的枠組みを通じて、参照不要で制御された文要約が実現可能であることを示す最初のものである。
論文 参考訳(メタデータ) (2022-10-25T07:07:54Z) - ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient
Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。
金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:38:48Z) - Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。
あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。
第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文 参考訳(メタデータ) (2020-10-24T23:15:43Z) - Collective Wisdom: Improving Low-resource Neural Machine Translation
using Adaptive Knowledge Distillation [42.38435539241788]
並列文ペアの空白は、バイリンガルで低リソースのシナリオで高品質なニューラルネットワーク翻訳(NMT)モデルをトレーニングする上で、大きなハードルとなる。
そこで本研究では, 蒸留過程における教師モデルの貢献度を動的に調整する適応的知識蒸留手法を提案する。
IWSLTからTED Talksから低リソースの5つの言語ペアへ6つの言語ペアのコレクションを転送する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-10-12T04:26:46Z) - Generation-Distillation for Efficient Natural Language Understanding in
Low-Data Settings [5.929956715430167]
大規模言語モデル(LM)を用いた伝達学習は、幅広い自然言語理解タスクにおいて劇的な性能向上をもたらした。
これらの大きなLMのサイズとメモリフットプリントは、多くのシナリオでのデプロイを困難にしている。
最近の研究では、知識蒸留が潜在的な解決策として指摘されており、与えられたタスクのトレーニングデータが豊富であれば、大きな(教師)LMを最小限の性能を失う小さなタスク固有(学生)ネットワークに蒸留することが可能である。
論文 参考訳(メタデータ) (2020-01-25T08:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。