論文の概要: Feature Structure Distillation for BERT Transferring
- arxiv url: http://arxiv.org/abs/2204.08922v1
- Date: Fri, 1 Apr 2022 10:10:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-24 23:30:38.707982
- Title: Feature Structure Distillation for BERT Transferring
- Title(参考訳): BERTトランスファー用の特徴構造蒸留
- Authors: Hee-Jun Jung, Doyeon Kim, Seung-Hoon Na, Kangil Kim
- Abstract要約: 本研究では, 機能内, 局所的機能間, グローバルな機能間構造という3つのタイプに比例した表現構造の蒸留について検討する。
中心核アライメントに基づくテクスチュア構造蒸留法を提案する。
GLUEデータセットの言語理解のための9つのタスクの実験において、提案手法は3種類の構造を効果的に伝達し、最先端の蒸留法と比較して性能を向上させる。
- 参考スコア(独自算出の注目度): 3.6818927677551114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation is an approach to transfer information on
representations from a teacher to a student by reducing their difference. A
challenge of this approach is to reduce the flexibility of the student's
representations inducing inaccurate learning of the teacher's knowledge. To
resolve it in BERT transferring, we investigate distillation of structures of
representations specified to three types: intra-feature, local inter-feature,
global inter-feature structures. To transfer them, we introduce \textit{feature
structure distillation} methods based on the Centered Kernel Alignment, which
assigns a consistent value to similar features structures and reveals more
informative relations. In particular, a memory-augmented transfer method with
clustering is implemented for the global structures. In the experiments on the
nine tasks for language understanding of the GLUE dataset, the proposed methods
effectively transfer the three types of structures and improve performance
compared to state-of-the-art distillation methods. Indeed, the code for the
methods is available in https://github.com/maroo-sky/FSD
- Abstract(参考訳): 知識蒸留は、教師から生徒への表現に関する情報を、その差を減らして伝達するアプローチである。
このアプローチの課題は、教師の知識を不正確な学習に導く学生の表現の柔軟性を減らすことである。
BERT転送で解決するために, 機能内, 局所機能間, グローバル機能間構造という3種類の表現構造を蒸留する。
これらを転送するために、Centered Kernel Alignment に基づく \textit{feature structure distillation} 法を導入し、同様の特徴構造に一貫した値を割り当て、より情報的な関係を明らかにする。
特に,グローバル構造に対して,クラスタリングを用いたメモリ拡張転送方式を実装した。
接着剤データセットの言語理解のための9つのタスクに関する実験において,提案手法は3種類の構造を効果的に転送し,最新の蒸留法と比較して性能を向上させる。
実際、メソッドのコードはhttps://github.com/maroo-sky/FSDで入手できる。
関連論文リスト
- I2CKD : Intra- and Inter-Class Knowledge Distillation for Semantic Segmentation [1.433758865948252]
本稿では,イメージセマンティックセグメンテーションに適した新しい知識蒸留法を提案する。
本手法の焦点は,教師(面倒なモデル)と生徒(コンパクトモデル)の中間層間の知識の獲得と伝達である。
論文 参考訳(メタデータ) (2024-03-27T12:05:22Z) - Attention-guided Feature Distillation for Semantic Segmentation [8.344263189293578]
本稿では,改良された特徴写像を用いて注目を伝達するための簡易かつ強力な手法の有効性を示す。
提案手法は, セマンティックセグメンテーションにおける既存手法を高密度な予測課題として優れ, リッチな情報の蒸留に有効であることが証明された。
論文 参考訳(メタデータ) (2024-03-08T16:57:47Z) - Investigating Graph Structure Information for Entity Alignment with
Dangling Cases [31.779386064600956]
エンティティアライメントは、異なる知識グラフ(KG)における等価なエンティティを見つけることを目的としている。
Weakly-optimal Graph Contrastive Learning (WOGCL) と呼ばれる新しいエンティティアライメントフレームワークを提案する。
We show that WOGCL are outperforms the current-of-the-art method with pure structure information in traditional (relaxed) and dangling settings。
論文 参考訳(メタデータ) (2023-04-10T17:24:43Z) - WIDER & CLOSER: Mixture of Short-channel Distillers for Zero-shot
Cross-lingual Named Entity Recognition [45.69979439311364]
言語横断的なエンティティ認識(NER)は、ソース言語のアノテーション付きおよびリッチリソースデータからターゲット言語のラベルなしおよびリーンリソースデータへの知識の転送を目的としている。
教師と学生の蒸留フレームワークに基づく既存の主流の手法は、事前訓練された言語モデルの中間層に存在する豊かで相補的な情報を無視する。
本研究では,教師モデルにおける豊富な階層情報を完全にやりとりし,学生モデルに知識を十分かつ効率的に伝達するために,短チャネル蒸留器(MSD)の混合方式を提案する。
論文 参考訳(メタデータ) (2022-12-07T08:13:22Z) - Joint Language Semantic and Structure Embedding for Knowledge Graph
Completion [66.15933600765835]
本稿では,知識三重項の自然言語記述と構造情報とを共同で組み込むことを提案する。
本手法は,学習済み言語モデルを微調整することで,完了作業のための知識グラフを埋め込む。
各種知識グラフベンチマーク実験により,本手法の最先端性能を実証した。
論文 参考訳(メタデータ) (2022-09-19T02:41:02Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。
本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。
実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文 参考訳(メタデータ) (2021-07-07T11:43:59Z) - Distilling Knowledge via Knowledge Review [69.15050871776552]
教師と学生のネットワーク間の接続経路のクロスレベル要因を研究し、その大きな重要性を明らかにします。
知識蒸留において初めて, クロスステージ接続経路が提案されている。
最終的に設計されたネストでコンパクトなフレームワークは、無視できるオーバーヘッドを必要とし、さまざまなタスクで他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-04-19T04:36:24Z) - Refine Myself by Teaching Myself: Feature Refinement via Self-Knowledge
Distillation [12.097302014936655]
本論文では,FRSKD (Self-Knowledge Distillation) による自己知識蒸留法を提案する。
提案手法であるFRSKDは,ソフトラベルと特徴マップ蒸留の両方を自己知識蒸留に利用できる。
様々なタスクとベンチマークデータセットのパフォーマンス改善を列挙することで、frskdの有効性を実証する。
論文 参考訳(メタデータ) (2021-03-15T10:59:43Z) - Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。
二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。
実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文 参考訳(メタデータ) (2020-12-15T23:43:28Z) - Distilling Knowledge from Graph Convolutional Networks [146.71503336770886]
既存の知識蒸留法は畳み込みニューラルネットワーク(CNN)に焦点を当てている
本稿では,事前学習したグラフ畳み込みネットワーク(GCN)モデルから知識を抽出する手法を提案する。
提案手法は,GCNモデルに対する最先端の知識蒸留性能を実現する。
論文 参考訳(メタデータ) (2020-03-23T18:23:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。