論文の概要: Multi-View Feature Representation for Dialogue Generation with
Bidirectional Distillation
- arxiv url: http://arxiv.org/abs/2102.10780v1
- Date: Mon, 22 Feb 2021 05:23:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 15:20:09.011355
- Title: Multi-View Feature Representation for Dialogue Generation with
Bidirectional Distillation
- Title(参考訳): 双方向蒸留による対話生成のための多視点特徴表現
- Authors: Shaoxiong Feng, Xuancheng Ren, Kan Li, Xu Sun
- Abstract要約: 本稿では,一般知識の学習がコンセンサスに到達するアイデアとより一致した,新たなトレーニングフレームワークを提案する。
トレーニング効率を犠牲にすることなく、モデル一般化を効果的に改善します。
- 参考スコア(独自算出の注目度): 22.14228918338769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural dialogue models suffer from low-quality responses when interacted in
practice, demonstrating difficulty in generalization beyond training data.
Recently, knowledge distillation has been used to successfully regularize the
student by transferring knowledge from the teacher. However, the teacher and
the student are trained on the same dataset and tend to learn similar feature
representations, whereas the most general knowledge should be found through
differences. The finding of general knowledge is further hindered by the
unidirectional distillation, as the student should obey the teacher and may
discard some knowledge that is truly general but refuted by the teacher. To
this end, we propose a novel training framework, where the learning of general
knowledge is more in line with the idea of reaching consensus, i.e., finding
common knowledge that is beneficial to different yet all datasets through
diversified learning partners. Concretely, the training task is divided into a
group of subtasks with the same number of students. Each student assigned to
one subtask not only is optimized on the allocated subtask but also imitates
multi-view feature representation aggregated from other students (i.e., student
peers), which induces students to capture common knowledge among different
subtasks and alleviates the over-fitting of students on the allocated subtasks.
To further enhance generalization, we extend the unidirectional distillation to
the bidirectional distillation that encourages the student and its student
peers to co-evolve by exchanging complementary knowledge with each other.
Empirical results and analysis demonstrate that our training framework
effectively improves the model generalization without sacrificing training
efficiency.
- Abstract(参考訳): 神経対話モデルは、実際に対話する際には低品質の反応に苦しめられ、訓練データを超えた一般化の困難さを示している。
近年,教員から知識を伝達することで,学生の正規化に成功している。
しかし、教師と学生は同じデータセットで訓練され、同様の機能表現を学ぶ傾向がありますが、最も一般的な知識は違いによって見つけるべきです。
一般知識の発見は、学生が教師に従わなければならない一方向の蒸留によってさらに妨げられ、真に一般的な知識を放棄する可能性がある。
そこで本研究では,一般知識の学習がコンセンサス(コンセンサス)に到達すること,すなわち,多様な学習パートナーを通じて,異なるがすべてのデータセットにとって有益な共通知識の発見に合致する,新たなトレーニングフレームワークを提案する。
具体的には、トレーニングタスクを、同じ数の学生を持つサブタスクのグループに分割する。
1つのサブタスクに割り当てられた各学生は、割り当てられたサブタスクに最適化されるだけでなく、他の学生(例えば、学生仲間)から集約された多視点の特徴表現を模倣する。
汎用化をさらに促進するため,留学生と留学生が相補的知識を交換することで共進化を促す双方向蒸留に一方向蒸留を拡張した。
実験結果と分析結果から,トレーニング効率を犠牲にすることなく,モデルの一般化を効果的に改善できることが示唆された。
関連論文リスト
- Tailoring Instructions to Student's Learning Levels Boosts Knowledge Distillation [52.53446712834569]
LGTM(Learning Good Teacher Matters)は,教師の学習プロセスに蒸留の影響を組み込むための効果的な訓練手法である。
我々のLGTMはGLUEベンチマークで6つのテキスト分類タスクに基づいて10の共通知識蒸留基準を上回ります。
論文 参考訳(メタデータ) (2023-05-16T17:50:09Z) - Automated Graph Self-supervised Learning via Multi-teacher Knowledge
Distillation [43.903582264697974]
本稿では,各ノードのインスタンスレベルの自己教師型学習戦略を自動的に,適応的に,動的に学習する方法について検討する。
自動グラフ自己監視学習(AGSSL)のための新しい多教師知識蒸留フレームワークを提案する。
8つのデータセットの実験では、AGSSLは複数のプレテキストタスクの恩恵を受けることができ、対応する個々のタスクを上回っている。
論文 参考訳(メタデータ) (2022-10-05T08:39:13Z) - Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。
知識蒸留は教師から知識を抽出し、対象モデルと統合する。
教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文 参考訳(メタデータ) (2022-05-04T06:49:47Z) - Does Knowledge Distillation Really Work? [106.38447017262183]
知識蒸留は学生の一般化を改善することができるが、一般的に理解されているようには機能しない。
学生が教師に合わない理由として,最適化の難しさがあげられる。
論文 参考訳(メタデータ) (2021-06-10T17:44:02Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Distilling Knowledge via Intermediate Classifier Heads [0.5584060970507505]
知識蒸留は、事前訓練されたより大きな教師モデルのガイドを用いて、リソース限定の学生モデルを訓練するためのトランスファーラーニングアプローチである。
キャパシティギャップの影響を軽減するため,中間頭部による知識蒸留を導入する。
種々の教師と学生のペアとデータセットに関する実験により,提案手法が標準知識蒸留法よりも優れていることを示した。
論文 参考訳(メタデータ) (2021-02-28T12:52:52Z) - Collaborative Group Learning [42.31194030839819]
協調学習は、小規模学生ネットワークのプールをロバストなローカルミニマへと導くために、知識伝達をうまく応用してきた。
従来のアプローチでは、学生の数が増加すると、学生の均質化が大幅に増加するのが普通だった。
特徴表現の多様化と効果的な正規化の実現を目的とした,効率的なフレームワークである協調型グループ学習を提案する。
論文 参考訳(メタデータ) (2020-09-16T14:34:39Z) - Dual Policy Distillation [58.43610940026261]
教員政策を学生政策に転換する政策蒸留は、深層強化学習の課題において大きな成功を収めた。
本研究では,2人の学習者が同じ環境下で活動し,環境の異なる視点を探索する,学生学生による二重政策蒸留(DPD)を導入する。
この二重学習フレームワークを開発する上で重要な課題は、同時代の学習に基づく強化学習アルゴリズムにおいて、ピア学習者から有益な知識を特定することである。
論文 参考訳(メタデータ) (2020-06-07T06:49:47Z) - Role-Wise Data Augmentation for Knowledge Distillation [48.115719640111394]
知識蒸留(KD)は、ある機械学習モデルから学んだ知識を別の機械学習モデルに転送する一般的な方法である。
我々は、知識蒸留を促進するために、異なる役割を持つデータ増強剤を設計する。
特別に調整されたデータポイントが、教師の知識をより効果的に生徒に示せることを実証的に見出した。
論文 参考訳(メタデータ) (2020-04-19T14:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。