論文の概要: HRKD: Hierarchical Relational Knowledge Distillation for Cross-domain
Language Model Compression
- arxiv url: http://arxiv.org/abs/2110.08551v1
- Date: Sat, 16 Oct 2021 11:23:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-21 12:56:56.492939
- Title: HRKD: Hierarchical Relational Knowledge Distillation for Cross-domain
Language Model Compression
- Title(参考訳): HRKD:クロスドメイン言語モデル圧縮のための階層的関係知識蒸留
- Authors: Chenhe Dong, Yaliang Li, Ying Shen, Minghui Qiu
- Abstract要約: 大規模事前学習言語モデル(PLM)は、従来のニューラルネットワーク手法と比較して圧倒的な性能を示している。
階層的および領域的関係情報の両方を抽出する階層的関係知識蒸留法(HRKD)を提案する。
- 参考スコア(独自算出の注目度): 53.90578309960526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On many natural language processing tasks, large pre-trained language models
(PLMs) have shown overwhelming performances compared with traditional neural
network methods. Nevertheless, their huge model size and low inference speed
have hindered the deployment on resource-limited devices in practice. In this
paper, we target to compress PLMs with knowledge distillation, and propose a
hierarchical relational knowledge distillation (HRKD) method to capture both
hierarchical and domain relational information. Specifically, to enhance the
model capability and transferability, we leverage the idea of meta-learning and
set up domain-relational graphs to capture the relational information across
different domains. And to dynamically select the most representative prototypes
for each domain, we propose a hierarchical compare-aggregate mechanism to
capture hierarchical relationships. Extensive experiments on public
multi-domain datasets demonstrate the superior performance of our HRKD method
as well as its strong few-shot learning ability. For reproducibility, we
release the code at https://github.com/cheneydon/hrkd.
- Abstract(参考訳): 多くの自然言語処理タスクにおいて、大規模事前学習言語モデル(PLM)は従来のニューラルネットワーク手法と比較して圧倒的な性能を示した。
それでも、その巨大なモデルサイズと低い推論速度は、実際にリソース制限されたデバイスへのデプロイを妨げている。
本稿では, PLMを知識蒸留で圧縮することを目標とし, 階層的および領域的関係情報の両方を抽出する階層的関係知識蒸留法を提案する。
具体的には、モデル能力と転送可能性を高めるために、メタラーニングのアイデアを活用し、異なるドメイン間の関係情報をキャプチャするためにドメイン関係グラフをセットアップします。
また,各領域において最も代表的なプロトタイプを動的に選択するために,階層的比較集約機構を提案する。
公開マルチドメインデータセットに対する大規模な実験は、HRKD法の優れた性能と強力な数ショット学習能力を示す。
再現性のために、コードはhttps://github.com/cheneydon/hrkdでリリースします。
関連論文リスト
- Learning to Generalize Unseen Domains via Multi-Source Meta Learning for Text Classification [71.08024880298613]
テキスト分類の多元的領域一般化について検討する。
本稿では、複数の参照ドメインを使用して、未知のドメインで高い精度を達成可能なモデルをトレーニングするフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T07:46:21Z) - StyDeSty: Min-Max Stylization and Destylization for Single Domain Generalization [85.18995948334592]
単一のドメインの一般化(単一DG)は、単一のトレーニングドメインからのみ見えないドメインに一般化可能な堅牢なモデルを学ぶことを目的としている。
最先端のアプローチは、主に新しいデータを合成するために、敵対的な摂動やスタイルの強化といったデータ拡張に頼っている。
データ拡張の過程で、ソースと擬似ドメインのアライメントを明示的に考慮したemphStyDeStyを提案する。
論文 参考訳(メタデータ) (2024-06-01T02:41:34Z) - Learning Hierarchical Features with Joint Latent Space Energy-Based
Prior [44.4434704520236]
階層表現学習における多層ジェネレータモデルの基本的問題について検討する。
実効的階層型表現学習のための多層潜在変数を用いた有意な潜在空間EMM事前モデルを提案する。
論文 参考訳(メタデータ) (2023-10-14T15:44:14Z) - Reinforcement Learning Based Multi-modal Feature Fusion Network for
Novel Class Discovery [47.28191501836041]
本稿では,人間の認知過程をシミュレートするために強化学習フレームワークを用いる。
また,マルチモーダル情報から特徴を抽出・融合するマルチエージェントフレームワークをデプロイした。
我々は、OS-MN40、OS-MN40-Miss、Cifar10データセットを用いて、3Dドメインと2Dドメインの両方でのアプローチの性能を示す。
論文 参考訳(メタデータ) (2023-08-26T07:55:32Z) - Distilling Universal and Joint Knowledge for Cross-Domain Model
Compression on Time Series Data [18.41222232863567]
ドメイン間モデル圧縮のためのUniversal and joint knowledge distillation (UNI-KD) と呼ばれる新しいエンドツーエンドフレームワークを提案する。
特に、ソースドメインとターゲットドメインにまたがる普遍的特徴レベル知識と、教師から生徒モデルに共通する共同ロジットレベル知識の両方を、逆学習方式で転送することを提案する。
論文 参考訳(メタデータ) (2023-07-07T01:48:02Z) - Recurrent Neural Networks with Mixed Hierarchical Structures and EM
Algorithm for Natural Language Processing [9.645196221785694]
我々は潜在指標層と呼ばれる手法を開発し、暗黙的な階層的情報を特定し学習する。
また、トレーニングにおいて潜在指標層を扱うEMアルゴリズムを開発した。
ブートストラップトレーニングによるEM-HRNNモデルは,文書分類タスクにおいて,他のRNNモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-01-21T23:08:33Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Learning to Combine: Knowledge Aggregation for Multi-Source Domain
Adaptation [56.694330303488435]
マルチソースドメイン適応(LtC-MSDA)フレームワークを併用する学習法を提案する。
簡単に言うと、知識グラフは様々なドメインのプロトタイプ上に構築され、セマンティックに隣接した表現間の情報伝達を実現する。
我々のアプローチは、既存の手法よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2020-07-17T07:52:44Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。