論文の概要: Referee: Reference-Free Sentence Summarization with Sharper
Controllability through Symbolic Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2210.13800v1
- Date: Tue, 25 Oct 2022 07:07:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 12:52:05.634409
- Title: Referee: Reference-Free Sentence Summarization with Sharper
Controllability through Symbolic Knowledge Distillation
- Title(参考訳): 審判:記号的知識蒸留を通したよりシャープな制御性を有する参照自由文要約
- Authors: Melanie Sclar, Peter West, Sachin Kumar, Yulia Tsvetkov, Yejin Choi
- Abstract要約: 文献要約のための新しい枠組みであるRefereeについて紹介する(つまり、監督のために金の要約を必要としない)。
我々の研究は、シンボリック知識蒸留の概念的枠組みを通じて、参照不要で制御された文要約が実現可能であることを示す最初のものである。
- 参考スコア(独自算出の注目度): 72.70058049274664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Referee, a novel framework for sentence summarization that can be
trained reference-free (i.e., requiring no gold summaries for supervision),
while allowing direct control for compression ratio. Our work is the first to
demonstrate that reference-free, controlled sentence summarization is feasible
via the conceptual framework of Symbolic Knowledge Distillation (West et al.,
2022), where latent knowledge in pre-trained language models is distilled via
explicit examples sampled from the teacher models, further purified with three
types of filters: length, fidelity, and Information Bottleneck. Moreover, we
uniquely propose iterative distillation of knowledge, where student models from
the previous iteration of distillation serve as teacher models in the next
iteration. Starting off from a relatively modest set of GPT3-generated
summaries, we demonstrate how iterative knowledge distillation can lead to
considerably smaller, but better summarizers with sharper controllability. A
useful by-product of this iterative distillation process is a high-quality
dataset of sentence-summary pairs with varying degrees of compression ratios.
Empirical results demonstrate that the final student models vastly outperform
the much larger GPT3-Instruct model in terms of the controllability of
compression ratios, without compromising the quality of resulting
summarization.
- Abstract(参考訳): 圧縮率を直接制御しながら、参照不要(すなわち、監督のために金の要約を必要としない)で訓練できる文要約のための新しいフレームワークであるRefereeを提案する。
我々の研究は,教師モデルから抽出した明示的な例を通して,事前学習された言語モデルの潜在知識を蒸留し,さらに長さ,忠実度,情報ボトルネックの3種類のフィルタで精製する,記号的知識蒸留(West et al., 2022)の概念的枠組みを通じて,参照のない制御文要約が実現可能であることを示す最初の試みである。
さらに,本研究では,前回の蒸留から得られた学生モデルが,次のイテレーションで教師モデルとして機能する,反復的知識蒸留を提案する。
GPT3生成サマリーの比較的控えめなセットから始め、反復的知識蒸留がいかにしてより小さく、よりシャープに制御可能であるかを示す。
この反復蒸留プロセスの有用な副産物は、圧縮比の度合いの異なる文章-要約ペアの高品質データセットである。
実験の結果,最終的な学生モデルは,圧縮率の制御性の観点から,より大きなgpt3インストラクションモデルを大きく上回り,結果の要約の質を損なうことなく達成できた。
関連論文リスト
- Learning Effective Representations for Retrieval Using Self-Distillation with Adaptive Relevance Margins [29.88235846291593]
ビエンコーダは、それぞれの埋め込みの類似性を計算することによって、クエリに対するドキュメントの関連性を推定します。
現在最先端のバイオエンコーダは、教師モデルからの知識蒸留とバッチサンプリングを含む高価なトレーニングシステムを用いて訓練されている。
本稿では,エンコーダモデルの事前学習言語モデリング機能をトレーニング信号として活用する,自己超越のための新しいパラメータフリー損失関数を提案する。
論文 参考訳(メタデータ) (2024-07-31T10:33:32Z) - Enhancing Abstractiveness of Summarization Models through Calibrated
Distillation [30.199051061633803]
DisCalは、情報を犠牲にすることなく抽象性のレベルを高める新しいアプローチである。
以上の結果から,DisCalは従来の抽象的な要約蒸留法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-10-20T18:43:49Z) - Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing [59.58984194238254]
本稿では,パラフレーズと文要約のための新しい枠組みであるImpossible Distillationを提案する。
極端に大規模な教師モデルに依存した先行研究とは異なり、パラフラスティックな近在性と事前学習されたLMを仮説化し、検証する。
これらの部分空間から世代を同定して蒸留することにより、インポッシブル蒸留は、GPT2スケールのLMでも高品質なデータセットとモデルを生成する。
論文 参考訳(メタデータ) (2023-05-26T05:19:24Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。
あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。
第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文 参考訳(メタデータ) (2020-10-24T23:15:43Z) - Noisy Self-Knowledge Distillation for Text Summarization [83.49809205891496]
我々は, テキスト要約に自己知識蒸留を適用し, 最大習熟時の問題を緩和できると考えている。
学生要約モデルは,学習の正規化を支援するスムーズなラベルを生成する教師の指導によって訓練される。
筆者らは,3つのベンチマークを用いて,事前学習と非事前学習の両方のパフォーマンス向上を実証した。
論文 参考訳(メタデータ) (2020-09-15T12:53:09Z) - Why distillation helps: a statistical perspective [69.90148901064747]
知識蒸留は、単純な「学生」モデルの性能を向上させる技術である。
この単純なアプローチは広く有効であることが証明されているが、基本的な問題は未解決のままである。
蒸留が既存の負の鉱業技術をどのように補完し, 極端に多層的検索を行うかを示す。
論文 参考訳(メタデータ) (2020-05-21T01:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。