論文の概要: Attention Temperature Matters in Abstractive Summarization Distillation
- arxiv url: http://arxiv.org/abs/2106.03441v1
- Date: Mon, 7 Jun 2021 09:18:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 08:58:07.339944
- Title: Attention Temperature Matters in Abstractive Summarization Distillation
- Title(参考訳): 抽象的要約蒸留における注意温度
- Authors: Shengqiang Zhang, Xingxing Zhang, Hangbo Bao, Furu Wei
- Abstract要約: 本稿では,高速な推論と性能損失の最小化のために,大規模なシーケンス・ツー・シーケンス・トランスフォーマーモデルをより小さなモデルに蒸留することを目的とする。
トランスフォーマーの注意温度を単純に操作すれば、学生モデルの擬似ラベルの学習が容易になる。
- 参考スコア(独自算出の注目度): 43.12920043942568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress of abstractive text summarization largely relies on large
pre-trained sequence-to-sequence Transformer models, which are computationally
expensive. This paper aims to distill these large models into smaller ones for
faster inference and minimal performance loss. Pseudo-labeling based methods
are popular in sequence-to-sequence model distillation. In this paper, we find
simply manipulating attention temperatures in Transformers can make pseudo
labels easier to learn for student models. Our experiments on three
summarization datasets show our proposed method consistently improves over
vanilla pseudo-labeling based methods. We also find that both the pseudo labels
and summaries produced by our students are shorter and more abstractive. We
will make our code and models publicly available.
- Abstract(参考訳): 最近の抽象的テキスト要約の進歩は、計算コストが高い大きな事前学習されたシーケンス・ツー・シーケンストランスフォーマーモデルに大きく依存している。
本稿では,これらの大規模モデルをより高速な推論と最小性能損失のために,より小さなモデルに蒸留することを目的とする。
擬似ラベル法はシーケンス・ツー・シーケンス・モデル蒸留でよく用いられる。
本稿では,変圧器の注意温度を簡易に操作することで,学生モデルの学習が容易になることを示す。
3つの要約データセットを用いた実験により,提案手法がバニラ擬似ラベルベース手法を一貫して改善することを示す。
また,学生が作成した疑似ラベルと要約が,より短く,より抽象的であることもわかった。
コードとモデルを一般公開する予定です。
関連論文リスト
- Heat Death of Generative Models in Closed-Loop Learning [63.83608300361159]
本研究では、独自の学習データセットに加えて、生成したコンテンツをフィードバックする生成モデルの学習ダイナミクスについて検討する。
各イテレーションで十分な量の外部データが導入されない限り、非自明な温度がモデルを退化させることを示す。
論文 参考訳(メタデータ) (2024-04-02T21:51:39Z) - Enhancing Abstractiveness of Summarization Models through Calibrated
Distillation [30.199051061633803]
DisCalは、情報を犠牲にすることなく抽象性のレベルを高める新しいアプローチである。
以上の結果から,DisCalは従来の抽象的な要約蒸留法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-10-20T18:43:49Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - Referee: Reference-Free Sentence Summarization with Sharper
Controllability through Symbolic Knowledge Distillation [72.70058049274664]
文献要約のための新しい枠組みであるRefereeについて紹介する(つまり、監督のために金の要約を必要としない)。
我々の研究は、シンボリック知識蒸留の概念的枠組みを通じて、参照不要で制御された文要約が実現可能であることを示す最初のものである。
論文 参考訳(メタデータ) (2022-10-25T07:07:54Z) - LOPS: Learning Order Inspired Pseudo-Label Selection for Weakly
Supervised Text Classification [28.37907856670151]
擬似ラベルは性質上ノイズが多いため、正しいラベルを選択すると性能が向上する可能性がある。
本稿では,サンプルの学習順序を考慮に入れた新しい擬似ラベル選択手法LOPSを提案する。
LOPSは、既存の弱い教師付きテキスト分類手法のほとんどに対して、強力なパフォーマンスブーストプラグインと見なすことができる。
論文 参考訳(メタデータ) (2022-05-25T06:46:48Z) - Learning from Noisy Labels for Entity-Centric Information Extraction [17.50856935207308]
エンティティ中心の情報抽出のための単純な共正規化フレームワークを提案する。
これらのモデルはタスク固有の損失と共同最適化され、同様の予測を生成するために正規化される。
結局のところ、トレーニングされたモデルのいずれかを推論に利用できます。
論文 参考訳(メタデータ) (2021-04-17T22:49:12Z) - Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。
あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。
第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文 参考訳(メタデータ) (2020-10-24T23:15:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。