Fugu-MT 論文翻訳(概要): Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing

論文の概要: Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing

arxiv url: http://arxiv.org/abs/2305.16635v1
Date: Fri, 26 May 2023 05:19:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-29 16:59:45.784872
Title: Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing
Title（参考訳）: impossible distillation:低品質モデルから高品質データセットへ : 要約とパラフレージングのためのモデル
Authors: Jaehun Jung, Peter West, Liwei Jiang, Faeze Brahman, Ximing Lu, Jillian Fisher, Taylor Sorensen, Yejin Choi
Abstract要約: 本稿では,市販の言語モデルから直接タスク固有のデータセットを抽出するフレームワークを提案する。我々は175Bパラメータ GPT-3 を上回り、桁違いに小さいモデルを蒸留することができる。提案手法の副産物として,3.4M文要約とパラフレーズを含む高品質なデータセットであるDIMSUM+を得る。
参考スコア（独自算出の注目度）: 49.43956605500996
License: http://creativecommons.org/licenses/by/4.0/
Abstract: It is commonly perceived that the strongest language models (LMs) rely on a combination of massive scale, instruction data, and human feedback to perform specialized tasks -- e.g. summarization and paraphrasing, without supervision. In this paper, we propose that language models can learn to summarize and paraphrase sentences, with none of these 3 factors. We present Impossible Distillation, a framework that distills a task-specific dataset directly from an off-the-shelf LM, even when it is impossible for the LM itself to reliably solve the task. By training a student model on the generated dataset and amplifying its capability through self-distillation, our method yields a high-quality model and dataset from a low-quality teacher model, without the need for scale or supervision. Using Impossible Distillation, we are able to distill an order of magnitude smaller model (with only 770M parameters) that outperforms 175B parameter GPT-3, in both quality and controllability, as confirmed by automatic and human evaluations. Furthermore, as a useful byproduct of our approach, we obtain DIMSUM+, a high-quality dataset with 3.4M sentence summaries and paraphrases. Our analyses show that this dataset, as a purely LM-generated corpus, is more diverse and more effective for generalization to unseen domains than all human-authored datasets -- including Gigaword with 4M samples.
Abstract（参考訳）: 一般に、最強言語モデル(LM)は、大規模、命令データ、人間のフィードバックを組み合わせて、例えば要約やパラフレージングなど、監督なしに専門的なタスクを実行すると認識されている。本稿では,これら3つの要素を問わない文の要約と言い換えを学習できる言語モデルを提案する。 LM自体が確実にタスクを解決できない場合でも、既製のLMから直接タスク固有のデータセットを蒸留するフレームワークであるImpossible Distillationを提案する。生成したデータセット上で生徒モデルを訓練し,自己蒸留によってその能力を増幅することにより,スケールや監督を必要とせず,低品質の教師モデルから高品質なモデルとデータセットを得る。 Inpossible Distillation を用いて、175B パラメータ GPT-3 を品質および可制御性の両方で上回る、桁違いに小さなモデル (770M パラメータのみ) を蒸留することができる。さらに,提案手法の副産物として,3.4M文要約とパラフレーズを含む高品質なデータセットであるDIMSUM+を得る。分析の結果、このデータセットは、純粋にlm生成されたコーパスとして、gigawordと4mサンプルを含むすべての人間が許可したデータセットよりも、未承認のドメインへの一般化に多様で効果的であることが分かりました。

関連論文リスト

Denoising Score Distillation: From Noisy Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
低品質データから高品質な生成モデルをトレーニングするための驚くほど効果的で斬新なアプローチであるDSD(Denoising score distillation)を導入する。 DSDはノイズの多い劣化したサンプルにのみ拡散モデルを事前訓練し、精製されたクリーンな出力を生成することができる1ステップの発電機に蒸留する。
論文参考訳（メタデータ） (2025-03-10T17:44:46Z)
BARE: Leveraging Base Language Models for Few-Shot Synthetic Data Generation [71.46236155101032]
現在のデータ生成法は、数万の例を含むシードセットに依存して、命令調整されたモデルを実行している。いくつか例を挙げると、インストラクションチューニングモデルでは、下流タスクの多様性が不十分であることが分かる。本研究では,ベースモデルの多様性と命令調整モデルの品質保証を両立させる新しい2段階手法であるBase-Refineを提案する。
論文参考訳（メタデータ） (2025-02-03T00:12:40Z)
Quantification of Large Language Model Distillation [22.680566179355335]
モデル蒸留の評価と定量化のための枠組みを提案する。本手法は, 同一性認知の矛盾を同定し, 同一性関連情報の知覚・表現方法の相違性を評価すること, そして, 同一性化の程度を測定するために, モデル間での多粒度応答類似性を解析することの2つの重要な側面に対処する。
論文参考訳（メタデータ） (2025-01-22T03:57:52Z)
Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。シーケンスレベルでは、シーケンス修正と再生戦略を提案する。トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文参考訳（メタデータ） (2024-07-14T03:51:49Z)
Baby Llama: knowledge distillation from an ensemble of teachers trained on a small dataset with no performance penalty [0.0]
我々は,GPT-2と小さなLLaMAモデルからなるアンサンブルを,発達的に予測可能な10MワードのBabyLMデータセットで訓練した。我々は, 58MパラメータのLLaMAモデルを用いて蒸留を行った。
論文参考訳（メタデータ） (2023-08-03T20:20:01Z)
Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。 4つのNLPベンチマークで3つの結果を得た。
論文参考訳（メタデータ） (2023-05-03T17:50:56Z)
Too Brittle To Touch: Comparing the Stability of Quantization and Distillation Towards Developing Lightweight Low-Resource MT Models [12.670354498961492]
最先端の機械翻訳モデルは、しばしば低リソース言語のデータに適応することができる。知識蒸留(Knowledge Distillation)は、競争力のある軽量モデルを開発するための一般的な技術である。
論文参考訳（メタデータ） (2022-10-27T05:30:13Z)
Referee: Reference-Free Sentence Summarization with Sharper Controllability through Symbolic Knowledge Distillation [72.70058049274664]
文献要約のための新しい枠組みであるRefereeについて紹介する(つまり、監督のために金の要約を必要としない)。我々の研究は、シンボリック知識蒸留の概念的枠組みを通じて、参照不要で制御された文要約が実現可能であることを示す最初のものである。
論文参考訳（メタデータ） (2022-10-25T07:07:54Z)
ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文参考訳（メタデータ） (2022-05-25T11:38:48Z)
Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文参考訳（メタデータ） (2020-10-24T23:15:43Z)
Collective Wisdom: Improving Low-resource Neural Machine Translation using Adaptive Knowledge Distillation [42.38435539241788]
並列文ペアの空白は、バイリンガルで低リソースのシナリオで高品質なニューラルネットワーク翻訳(NMT)モデルをトレーニングする上で、大きなハードルとなる。そこで本研究では, 蒸留過程における教師モデルの貢献度を動的に調整する適応的知識蒸留手法を提案する。 IWSLTからTED Talksから低リソースの5つの言語ペアへ6つの言語ペアのコレクションを転送する実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2020-10-12T04:26:46Z)
Generation-Distillation for Efficient Natural Language Understanding in Low-Data Settings [5.929956715430167]
大規模言語モデル(LM)を用いた伝達学習は、幅広い自然言語理解タスクにおいて劇的な性能向上をもたらした。これらの大きなLMのサイズとメモリフットプリントは、多くのシナリオでのデプロイを困難にしている。最近の研究では、知識蒸留が潜在的な解決策として指摘されており、与えられたタスクのトレーニングデータが豊富であれば、大きな(教師)LMを最小限の性能を失う小さなタスク固有(学生)ネットワークに蒸留することが可能である。
論文参考訳（メタデータ） (2020-01-25T08:20:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。