論文の概要: Heterogeneous-Branch Collaborative Learning for Dialogue Generation
- arxiv url: http://arxiv.org/abs/2303.11621v1
- Date: Tue, 21 Mar 2023 06:41:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 16:20:40.551466
- Title: Heterogeneous-Branch Collaborative Learning for Dialogue Generation
- Title(参考訳): 対話生成のためのヘテロジニアス・ブランチ協調学習
- Authors: Yiwei Li, Shaoxiong Feng, Bin Sun, Kan Li
- Abstract要約: 協調学習は、十分に訓練された大規模な教師モデルが存在しない場合、一段階のグループ蒸留を効果的に行う方法である。
従来の作業は、同じトレーニング目標と独立した同一トレーニングセットのために、深刻な分岐均一性の問題があった。
本稿では, 正の蒸留法と負の蒸留法を組み合わせた二重群式知識蒸留法を提案する。
- 参考スコア(独自算出の注目度): 11.124375734351826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of deep learning, advanced dialogue generation methods
usually require a greater amount of computational resources. One promising
approach to obtaining a high-performance and lightweight model is knowledge
distillation, which relies heavily on the pre-trained powerful teacher.
Collaborative learning, also known as online knowledge distillation, is an
effective way to conduct one-stage group distillation in the absence of a
well-trained large teacher model. However, previous work has a severe branch
homogeneity problem due to the same training objective and the independent
identical training sets. To alleviate this problem, we consider the dialogue
attributes in the training of network branches. Each branch learns the
attribute-related features based on the selected subset. Furthermore, we
propose a dual group-based knowledge distillation method, consisting of
positive distillation and negative distillation, to further diversify the
features of different branches in a steadily and interpretable way. The
proposed approach significantly improves branch heterogeneity and outperforms
state-of-the-art collaborative learning methods on two widely used open-domain
dialogue datasets.
- Abstract(参考訳): 深層学習の発展に伴い、高度な対話生成法は、通常より多くの計算資源を必要とする。
高性能で軽量なモデルを得るための有望なアプローチの1つは、事前訓練された強力な教師に大きく依存する知識蒸留である。
協調学習(英: Collaborative learning)またはオンライン知識蒸留(英: online knowledge distillation)は、よく訓練された大きな教師モデルがない状態で一段階の集団蒸留を行う効果的な方法である。
しかし、同じ訓練目標と独立した同一の訓練セットのために、以前の研究は深刻な分岐相同性の問題を抱えている。
この問題を軽減するために,ネットワーク分岐の訓練における対話属性を検討する。
各ブランチは、選択したサブセットに基づいて属性関連の機能を学ぶ。
さらに, 正の蒸留法と負の蒸留法を組み合わせた二重群式知識蒸留法を提案する。
提案手法は,2つのオープンドメイン対話データセットにおいて,分岐の不均一性を大幅に改善し,最先端協調学習手法を上回っている。
関連論文リスト
- Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - Decoupled Knowledge with Ensemble Learning for Online Distillation [3.794605440322862]
オンライン知識蒸留は、相互学習と協調学習による要求を緩和するワンステージ戦略である。
近年のペア協調学習(PCL)では,オンラインアンサンブル,ベースネットワークの協調,時間的平均教師による効果的な知識構築が実現されている。
オンライン知識蒸留のための分離知識は、学生とは別に独立した教師によって生成される。
論文 参考訳(メタデータ) (2023-12-18T14:08:59Z) - I$^2$MD: 3D Action Representation Learning with Inter- and Intra-modal
Mutual Distillation [147.2183428328396]
一般のモード内相互蒸留(I$2$MD)フレームワークを紹介する。
In 2$MD, we first-formulate the cross-modal interaction as a cross-modal Mutual Distillation (CMD) process。
類似したサンプルの干渉を緩和し,その基盤となるコンテキストを活用するため,モーダル・ミューチュアル蒸留(IMD)戦略をさらに設計する。
論文 参考訳(メタデータ) (2023-10-24T07:22:17Z) - Channel Self-Supervision for Online Knowledge Distillation [14.033675223173933]
オンライン知識蒸留(CSS)のための新しいオンライン知識蒸留法, textbfChannel textbfSelf-textbfSupervisionを提案する。
我々は,マルチブランチ構造を構築し,自己教師付き学習を通じて分岐間多様性を向上させる。
提案手法はOKDDipよりも多様性が高く,PCLのような最先端技術でも高い性能向上を実現している。
論文 参考訳(メタデータ) (2022-03-22T12:35:20Z) - Weakly Supervised Semantic Segmentation via Alternative Self-Dual
Teaching [82.71578668091914]
本稿では,分類とマスク・リファインメント・コンポーネントを統合された深層モデルに組み込む,コンパクトな学習フレームワークを確立する。
本稿では,高品質な知識相互作用を促進するために,新たな自己双対学習(ASDT)機構を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:56:56Z) - Distilling Knowledge via Intermediate Classifier Heads [0.5584060970507505]
知識蒸留は、事前訓練されたより大きな教師モデルのガイドを用いて、リソース限定の学生モデルを訓練するためのトランスファーラーニングアプローチである。
キャパシティギャップの影響を軽減するため,中間頭部による知識蒸留を導入する。
種々の教師と学生のペアとデータセットに関する実験により,提案手法が標準知識蒸留法よりも優れていることを示した。
論文 参考訳(メタデータ) (2021-02-28T12:52:52Z) - Peer Collaborative Learning for Online Knowledge Distillation [69.29602103582782]
Peer Collaborative Learningメソッドは、オンラインアンサンブルとネットワークコラボレーションを統合フレームワークに統合する。
CIFAR-10, CIFAR-100, ImageNetによる実験により, 提案手法は種々のバックボーンネットワークの一般化を著しく改善することを示した。
論文 参考訳(メタデータ) (2020-06-07T13:21:52Z) - Transfer Heterogeneous Knowledge Among Peer-to-Peer Teammates: A Model
Distillation Approach [55.83558520598304]
本研究は, モデル蒸留により, 複数の学生間で経験と伝達値関数を再利用する新しい手法を提案する。
また、異種知識を活用するための効率的な通信プロトコルの設計方法について述べる。
提案するフレームワークである学習・指導カテゴリー強化は,学習の進捗を安定化・加速する上で有望な性能を示す。
論文 参考訳(メタデータ) (2020-02-06T11:31:04Z) - Learning From Multiple Experts: Self-paced Knowledge Distillation for
Long-tailed Classification [106.08067870620218]
我々は,LFME(Learning From Multiple Experts)と呼ばれる自己評価型知識蒸留フレームワークを提案する。
提案するLFMEフレームワークは,複数の'Experts'からの知識を集約して,統一された学生モデルを学ぶ。
提案手法は,最先端の手法に比べて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-06T12:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。