Fugu-MT 論文翻訳(概要): Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing

論文の概要: Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing

arxiv url: http://arxiv.org/abs/2305.16635v2
Date: Tue, 19 Mar 2024 16:14:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-21 01:20:39.248606
Title: Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing
Title（参考訳）: 不溶性蒸留--要約・パラフレージングのための低品質モデルから高品質データセット・モデルへ
Authors: Jaehun Jung, Peter West, Liwei Jiang, Faeze Brahman, Ximing Lu, Jillian Fisher, Taylor Sorensen, Yejin Choi,
Abstract要約: 本稿では,パラフレーズと文要約のための新しい枠組みであるImpossible Distillationを提案する。極端に大規模な教師モデルに依存した先行研究とは異なり、パラフラスティックな近在性と事前学習されたLMを仮説化し、検証する。これらの部分空間から世代を同定して蒸留することにより、インポッシブル蒸留は、GPT2スケールのLMでも高品質なデータセットとモデルを生成する。
参考スコア（独自算出の注目度）: 59.58984194238254
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present Impossible Distillation, a novel framework for paraphrasing and sentence summarization, that distills a high-quality dataset and model from a low-quality teacher that itself cannot perform these tasks. Unlike prior works that rely on an extreme-scale teacher model (e.g., GPT3) or task-specific architecture, we hypothesize and verify the paraphrastic proximity intrinsic to pre-trained LMs (e.g., GPT2), where paraphrases occupy a proximal subspace in the LM distribution. By identifying and distilling generations from these subspaces, Impossible Distillation produces a high-quality dataset and model even from GPT2-scale LMs. We evaluate our method on multiple benchmarks spanning unconstrained / syntax-controlled paraphrase generation and sentence summarization. Our model with 770M parameters consistently outperforms strong baselines, including models distilled from ChatGPT, and sometimes, even ChatGPT itself. Also, we find that our distilled dataset from 1.5B LMs exhibits higher diversity and fidelity than up to 13 times larger datasets.
Abstract（参考訳）: 本稿では,これらの課題を遂行できない低品質の教師から高品質なデータセットとモデルを蒸留する,言い換えと文要約の新しいフレームワークであるImpossible Distillationを提案する。極大規模教師モデル(例, GPT3)やタスク固有アーキテクチャ(例, GPT3)に依存した先行研究とは異なり、パラフレーズがLM分布の近位部分空間を占有する事前学習されたLM(例, GPT2)に内在するパラフレーズの近さを仮説化し検証する。これらの部分空間から世代を同定して蒸留することにより、インポッシブル蒸留は、GPT2スケールのLMでも高品質なデータセットとモデルを生成する。制約なし/構文制御されたパラフレーズ生成と文要約にまたがる複数のベンチマークにおいて,本手法の評価を行った。 770Mパラメータを持つ我々のモデルは、ChatGPTから蒸留されたモデルや、時にはChatGPT自体よりも高いベースラインを一貫して上回ります。また,1.5B LMの蒸留データセットは最大13倍の多様性と忠実度を示した。

関連論文リスト

On-Policy Context Distillation for Language Models [92.82835176360864]
本稿では, オンライン蒸留とコンテキスト蒸留を橋渡しするフレームワークである, オン・ポリティ・コンテキスト蒸留(OPCD)を提案する。実験的知識蒸留とシステム急速蒸留の2つの重要な応用におけるOPCDの有効性を実証する。
論文参考訳（メタデータ） (2026-02-12T18:58:28Z)
LM-mixup: Text Data Augmentation via Language Model based Mixup [32.03418172361991]
大規模言語モデル(LLM)の整合化には,インストラクションチューニングが不可欠である高品質なデータが最重要である一方で、しばしば不足しており、逆に、豊富な低品質のデータはしばしば破棄される。 LM-Mixupは、まずMIXTURE上で教師付き微調整を行い、次に強化学習で最適化する。我々は、LM-Mixupが不完全なデータセットを効果的に増やすことを実証した。
論文参考訳（メタデータ） (2025-10-23T11:33:35Z)
Towards Efficient CoT Distillation: Self-Guided Rationale Selector for Better Performance with Fewer Rationales [21.91556878201084]
チェイン・オブ・シント(CoT)蒸留は, より大規模な教師モデルから多段階の推論能力を伝達することにより, 小型言語モデル(SLM)推論を強化することを目的としている。既存の作業は、主にデータ量に焦点を当てた合理的な品質を過小評価しており、ノイズや誤った情報を学生モデルに転送することができる。 textbfModel-textbfOriented textbfRationale textbfSelection textbfDistillation (MoRSD)を提案する。
論文参考訳（メタデータ） (2025-09-28T02:09:07Z)
Denoising Score Distillation: From Noisy Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
低品質データから高品質な生成モデルをトレーニングするための驚くほど効果的で斬新なアプローチであるDSD(Denoising score distillation)を導入する。 DSDはノイズの多い劣化したサンプルにのみ拡散モデルを事前訓練し、精製されたクリーンな出力を生成することができる1ステップの発電機に蒸留する。
論文参考訳（メタデータ） (2025-03-10T17:44:46Z)
BARE: Leveraging Base Language Models for Few-Shot Synthetic Data Generation [71.46236155101032]
現在のデータ生成法は、数万の例を含むシードセットに依存して、命令調整されたモデルを実行している。いくつか例を挙げると、インストラクションチューニングモデルでは、下流タスクの多様性が不十分であることが分かる。本研究では,ベースモデルの多様性と命令調整モデルの品質保証を両立させる新しい2段階手法であるBase-Refineを提案する。
論文参考訳（メタデータ） (2025-02-03T00:12:40Z)
Quantification of Large Language Model Distillation [22.680566179355335]
モデル蒸留の評価と定量化のための枠組みを提案する。本手法は, 同一性認知の矛盾を同定し, 同一性関連情報の知覚・表現方法の相違性を評価すること, そして, 同一性化の程度を測定するために, モデル間での多粒度応答類似性を解析することの2つの重要な側面に対処する。
論文参考訳（メタデータ） (2025-01-22T03:57:52Z)
Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。シーケンスレベルでは、シーケンス修正と再生戦略を提案する。トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文参考訳（メタデータ） (2024-07-14T03:51:49Z)
Baby Llama: knowledge distillation from an ensemble of teachers trained on a small dataset with no performance penalty [0.0]
我々は,GPT-2と小さなLLaMAモデルからなるアンサンブルを,発達的に予測可能な10MワードのBabyLMデータセットで訓練した。我々は, 58MパラメータのLLaMAモデルを用いて蒸留を行った。
論文参考訳（メタデータ） (2023-08-03T20:20:01Z)
Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。 4つのNLPベンチマークで3つの結果を得た。
論文参考訳（メタデータ） (2023-05-03T17:50:56Z)
Too Brittle To Touch: Comparing the Stability of Quantization and Distillation Towards Developing Lightweight Low-Resource MT Models [12.670354498961492]
最先端の機械翻訳モデルは、しばしば低リソース言語のデータに適応することができる。知識蒸留(Knowledge Distillation)は、競争力のある軽量モデルを開発するための一般的な技術である。
論文参考訳（メタデータ） (2022-10-27T05:30:13Z)
Referee: Reference-Free Sentence Summarization with Sharper Controllability through Symbolic Knowledge Distillation [72.70058049274664]
文献要約のための新しい枠組みであるRefereeについて紹介する(つまり、監督のために金の要約を必要としない)。我々の研究は、シンボリック知識蒸留の概念的枠組みを通じて、参照不要で制御された文要約が実現可能であることを示す最初のものである。
論文参考訳（メタデータ） (2022-10-25T07:07:54Z)
ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文参考訳（メタデータ） (2022-05-25T11:38:48Z)
Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文参考訳（メタデータ） (2020-10-24T23:15:43Z)
Collective Wisdom: Improving Low-resource Neural Machine Translation using Adaptive Knowledge Distillation [42.38435539241788]
並列文ペアの空白は、バイリンガルで低リソースのシナリオで高品質なニューラルネットワーク翻訳(NMT)モデルをトレーニングする上で、大きなハードルとなる。そこで本研究では, 蒸留過程における教師モデルの貢献度を動的に調整する適応的知識蒸留手法を提案する。 IWSLTからTED Talksから低リソースの5つの言語ペアへ6つの言語ペアのコレクションを転送する実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2020-10-12T04:26:46Z)
Generation-Distillation for Efficient Natural Language Understanding in Low-Data Settings [5.929956715430167]
大規模言語モデル(LM)を用いた伝達学習は、幅広い自然言語理解タスクにおいて劇的な性能向上をもたらした。これらの大きなLMのサイズとメモリフットプリントは、多くのシナリオでのデプロイを困難にしている。最近の研究では、知識蒸留が潜在的な解決策として指摘されており、与えられたタスクのトレーニングデータが豊富であれば、大きな(教師)LMを最小限の性能を失う小さなタスク固有(学生)ネットワークに蒸留することが可能である。
論文参考訳（メタデータ） (2020-01-25T08:20:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。