論文の概要: A Systematic Study of Knowledge Distillation for Natural Language
Generation with Pseudo-Target Training
- arxiv url: http://arxiv.org/abs/2305.02031v1
- Date: Wed, 3 May 2023 10:49:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 15:15:08.517002
- Title: A Systematic Study of Knowledge Distillation for Natural Language
Generation with Pseudo-Target Training
- Title(参考訳): 疑似目標訓練による自然言語生成のための知識蒸留の体系的研究
- Authors: Nitay Calderon, Subhabrata Mukherjee, Roi Reichart and Amir Kantor
- Abstract要約: 我々は,小学生が大きな教師モデルを模倣することを学ぶ知識蒸留技術に焦点をあてる。
実世界のアプリケーションでは、ラベル付きデータに加えて、多くのラベル付けされていないタスク固有データがあり、これはKDによる高い圧縮率を達成するのに不可欠である。
教師と学生の両方が生成する複数のPTに単語レベルKDを適用したNLG蒸留のジョイント・ティーチング法を提案する。
- 参考スコア(独自算出の注目度): 32.87731973236423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern Natural Language Generation (NLG) models come with massive
computational and storage requirements. In this work, we study the potential of
compressing them, which is crucial for real-world applications serving millions
of users. We focus on Knowledge Distillation (KD) techniques, in which a small
student model learns to imitate a large teacher model, allowing to transfer
knowledge from the teacher to the student. In contrast to much of the previous
work, our goal is to optimize the model for a specific NLG task and a specific
dataset. Typically, in real-world applications, in addition to labeled data
there is abundant unlabeled task-specific data, which is crucial for attaining
high compression rates via KD. In this work, we conduct a systematic study of
task-specific KD techniques for various NLG tasks under realistic assumptions.
We discuss the special characteristics of NLG distillation and particularly the
exposure bias problem. Following, we derive a family of Pseudo-Target (PT)
augmentation methods, substantially extending prior work on sequence-level KD.
We propose the Joint-Teaching method for NLG distillation, which applies
word-level KD to multiple PTs generated by both the teacher and the student.
Our study provides practical model design observations and demonstrates the
effectiveness of PT training for task-specific KD in NLG.
- Abstract(参考訳): 現代の自然言語生成(NLG)モデルには、膨大な計算とストレージの要求がある。
本研究では,数百万のユーザを対象とした実世界のアプリケーションにとって重要な圧縮の可能性について検討する。
我々は,小学生が大きな教師モデルに模倣することを学習し,教師から生徒に知識を伝達する,知識蒸留(KD)技術に注目した。
これまでの多くの作業とは対照的に、私たちの目標は特定のnlgタスクと特定のデータセットのモデルを最適化することです。
通常、現実世界のアプリケーションではラベル付きデータに加えて、大量のラベルなしのタスク固有のデータがあり、kdで高い圧縮率を達成するのに不可欠である。
本研究では,現実的な仮定の下で,様々なNLGタスクに対するタスク固有KD手法の体系的研究を行う。
nlg蒸留の特殊特性,特に露出バイアス問題について考察する。
次に, Pseudo-Target (PT) 拡張手法のファミリーを導出し, 配列レベルのKDに関する先行研究を大幅に延長する。
教師と学生の両方が生成する複数のPTに単語レベルKDを適用したNLG蒸留のジョイントティーチング法を提案する。
本研究は,実用的なモデル設計観察を提供し,nlgにおけるタスク固有kdに対するptトレーニングの有効性を示す。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Linear Projections of Teacher Embeddings for Few-Class Distillation [14.99228980898161]
知識蒸留(KD)は、より大規模で複雑な教師モデルからより小さな学生モデルへ知識を移行するための有望なアプローチとして登場した。
学習埋め込み線形射影(LELP)と呼ばれる教師のモデル表現から知識を抽出する新しい手法を提案する。
Amazon ReviewsやSentiment140のような大規模NLPベンチマークの実験的な評価では、LELPはバイナリや少数クラスの問題に対する既存の最先端蒸留アルゴリズムと一貫して競合し、典型的には優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-30T16:07:34Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Talking Models: Distill Pre-trained Knowledge to Downstream Models via
Interactive Communication [25.653517213641575]
我々は、下流の課題の学生が事前学習された基礎モデルから効果的に学習するのに役立つ対話型コミュニケーションプロセスを開発する。
私たちのデザインは、学生のニーズを満たす方法で知識を説明することができる教師から、人間が学ぶ方法にインスピレーションを受けています。
論文 参考訳(メタデータ) (2023-10-04T22:22:21Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Data-Free Adversarial Knowledge Distillation for Graph Neural Networks [62.71646916191515]
グラフ構造化データ(DFAD-GNN)を用いたデータフリー逆知識蒸留のための第1のエンドツーエンドフレームワークを提案する。
具体的には、DFAD-GNNは、教師モデルと学生モデルとを2つの識別器とみなし、教師モデルから学生モデルに知識を抽出するために学習グラフを導出するジェネレータという、主に3つの成分からなる生成的対向ネットワークを採用している。
我々のDFAD-GNNは、グラフ分類タスクにおける最先端のデータフリーベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2022-05-08T08:19:40Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - Pea-KD: Parameter-efficient and Accurate Knowledge Distillation on BERT [20.732095457775138]
知識蒸留(KD)は、モデル圧縮の手法として広く知られている。
Pea-KDは、Shuffled Sharing(SPS)とPretraining with Teacher's Predictions(PTP)の2つの主要部分から構成される。
論文 参考訳(メタデータ) (2020-09-30T17:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。