論文の概要: Data-Free Distillation of Language Model by Text-to-Text Transfer
- arxiv url: http://arxiv.org/abs/2311.01689v1
- Date: Fri, 3 Nov 2023 03:31:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 15:25:54.857518
- Title: Data-Free Distillation of Language Model by Text-to-Text Transfer
- Title(参考訳): テキスト・テキスト・トランスファーによる言語モデルのデータフリー蒸留
- Authors: Zheyuan Bai, Xinduo Liu, Hailin Hu, Tianyu Guo, Qinghua Zhang, Yunhe
Wang
- Abstract要約: データフリー知識蒸留(DFKD)は、元のトレーニングデータが利用できないときにモデルを圧縮する上で重要な役割を果たす。
本稿では、DFKD-T$3$という新しいDFKDフレームワークを提案する。
本手法は, 感情分析, 言語受容性, 情報抽出など, 下流業務における蒸留性能を向上させることができる。
- 参考スコア(独自算出の注目度): 22.830164917398623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data-Free Knowledge Distillation (DFKD) plays a vital role in compressing the
model when original training data is unavailable. Previous works for DFKD in
NLP mainly focus on distilling encoder-only structures like BERT on
classification tasks, which overlook the notable progress of generative
language modeling. In this work, we propose a novel DFKD framework, namely
DFKD-T$^{3}$, where the pretrained generative language model can also serve as
a controllable data generator for model compression. This novel framework
DFKD-T$^{3}$ leads to an end-to-end learnable text-to-text framework to
transform the general domain corpus to compression-friendly task data,
targeting to improve both the \textit{specificity} and \textit{diversity}.
Extensive experiments show that our method can boost the distillation
performance in various downstream tasks such as sentiment analysis, linguistic
acceptability, and information extraction. Furthermore, we show that the
generated texts can be directly used for distilling other language models and
outperform the SOTA methods, making our method more appealing in a general DFKD
setting. Our code is available at
https://gitee.com/mindspore/models/tree/master/research/nlp/DFKD\_T3.
- Abstract(参考訳): データフリー知識蒸留(DFKD)は、元のトレーニングデータが利用できないときにモデルを圧縮する上で重要な役割を果たす。
NLPにおけるDFKDのこれまでの研究は主に、生成言語モデリングの顕著な進歩を見越した分類タスクにおけるBERTのようなエンコーダのみの構造の蒸留に焦点を当てていた。
本研究では,事前学習された生成言語モデルがモデル圧縮のための制御可能なデータジェネレータとしても機能する,dfkd-t$^{3}$という新しいdfkdフレームワークを提案する。
この斬新なフレームワーク dfkd-t$^{3}$ は、一般的なドメインコーパスを圧縮フレンドリなタスクデータに変換するエンドツーエンドの学習可能なテキスト間フレームワークとなり、 \textit{specificity} と \textit{diversity} の両方を改善することを目標としている。
広範な実験により, 感情分析, 言語受容性, 情報抽出など, 下流課題の蒸留性能を向上させることができた。
さらに, 生成したテキストを他の言語モデルを蒸留し, sota法を上回り, 一般的なdfkd設定でより魅力的になることを示す。
私たちのコードはhttps://gitee.com/mindspore/models/tree/master/research/nlp/DFKD\_T3で利用可能です。
関連論文リスト
- Triples-to-isiXhosa (T2X): Addressing the Challenges of Low-Resource
Agglutinative Data-to-Text Generation [9.80836683456026]
我々は,低リソースかつ凝集性の高いisiXhosaのデータ・トゥ・テキストに取り組む。
我々はWebNLGのサブセットに基づいた新しいデータセットであるTriples-to-isiXhosa (T2X)を紹介する。
本研究では,T2X の評価フレームワークを開発し,データ記述の精度を計測する。
論文 参考訳(メタデータ) (2024-03-12T11:53:27Z) - Text-to-3D with Classifier Score Distillation [80.14832887529259]
クラシファイアフリーガイダンスは最も必須ではなく、補助的なトリックだと考えられている。
我々はこの手法をスコア蒸留 (CSD) と名付け, 生成のための暗黙の分類モデルを用いて解釈できる。
我々は,形状生成,テクスチャ合成,形状編集など,テキストから3Dまでの各種タスクにおけるCSDの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T10:25:40Z) - GECTurk: Grammatical Error Correction and Detection Dataset for Turkish [1.804922416527064]
文法的誤り検出・訂正(GEC)ツールは、母語話者と第二言語学習者にとって有用であることが証明されている。
合成データ生成は、そのようなデータの不足を克服するための一般的なプラクティスである。
トルコ語のためのフレキシブルで総合的なデータ生成パイプラインを提案し、20以上の専門家による文法と綴り規則をカバーしている。
論文 参考訳(メタデータ) (2023-09-20T14:25:44Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Prompting to Distill: Boosting Data-Free Knowledge Distillation via
Reinforced Prompt [52.6946016535059]
データフリー知識蒸留(DFKD)は、元のトレーニングデータの依存をなくし、知識蒸留を行う。
本稿では,PmptDFD(PromptDFD)と呼ばれるプロンプトベースの手法を提案する。
本実験で示すように, 本手法は, 合成品質を大幅に向上し, 蒸留性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-05-16T08:56:53Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Adversarial Self-Supervised Data-Free Distillation for Text
Classification [13.817252068643066]
本稿では,Adversarial Self-Supervised Data-Free Distillation (AS-DFD) という新しい2段階の無添加蒸留法を提案する。
我々のフレームワークは、NLPタスク用に設計された最初のデータフリー蒸留フレームワークである。
論文 参考訳(メタデータ) (2020-10-10T02:46:06Z) - Abstractive Text Summarization based on Language Model Conditioning and
Locality Modeling [4.525267347429154]
BERT言語モデルに基づいてTransformerベースのニューラルモデルをトレーニングする。
さらに,BERTウィンドウサイズよりも長いテキストのチャンクワイズ処理が可能なBERTウィンドウ方式を提案する。
我々のモデルの結果は、CNN/Daily Mailデータセットのベースラインと最先端モデルと比較される。
論文 参考訳(メタデータ) (2020-03-29T14:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。