論文の概要: FlyKD: Graph Knowledge Distillation on the Fly with Curriculum Learning
- arxiv url: http://arxiv.org/abs/2403.10807v1
- Date: Sat, 16 Mar 2024 04:43:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 21:35:15.068949
- Title: FlyKD: Graph Knowledge Distillation on the Fly with Curriculum Learning
- Title(参考訳): FlyKD: カリキュラム学習によるフライでのグラフ知識蒸留
- Authors: Eugene Ku,
- Abstract要約: 本研究では,FlyKD (Knowledge Distillation on the Fly)を提案する。
カリキュラム学習の成功により、ノイズの多い擬似ラベルよりも最適化を改善するための新たな研究の方向性が明らかにされた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Knowledge Distillation (KD) aims to transfer a more capable teacher model's knowledge to a lighter student model in order to improve the efficiency of the model, making it faster and more deployable. However, the student model's optimization process over the noisy pseudo labels (generated by the teacher model) is tricky and the amount of pseudo labels one can generate is limited due to Out of Memory (OOM) error. In this paper, we propose FlyKD (Knowledge Distillation on the Fly) which enables the generation of virtually unlimited number of pseudo labels, coupled with Curriculum Learning that greatly alleviates the optimization process over the noisy pseudo labels. Empirically, we observe that FlyKD outperforms vanilla KD and the renown Local Structure Preserving Graph Convolutional Network (LSPGCN). Lastly, with the success of Curriculum Learning, we shed light on a new research direction of improving optimization over noisy pseudo labels.
- Abstract(参考訳): 知識蒸留(KD)は、より有能な教師モデルの知識をより軽量な学生モデルに移し、モデルの効率を向上し、より速く、よりデプロイしやすくすることを目的としている。
しかし、ノイズの多い擬似ラベル(教師モデルによって生成される)に対する学生モデルの最適化プロセスは難易度が高く、メモリ外乱(OOM)エラーにより生成できる擬似ラベルの量は制限される。
本稿では,FlyKD(Knowledge Distillation on the Fly)を提案する。このFlyKD(Knowledge Distillation on the Fly)は,ほとんど無限数の擬似ラベルを生成できる。
実証的に、FlyKDはバニラKDと有名なローカル構造保存グラフ畳み込みネットワーク(LSPGCN)より優れています。
最後に、カリキュラム学習の成功により、ノイズの多い擬似ラベルに対する最適化を改善するための新たな研究の方向性を明らかにした。
関連論文リスト
- Linear Projections of Teacher Embeddings for Few-Class Distillation [14.99228980898161]
知識蒸留(KD)は、より大規模で複雑な教師モデルからより小さな学生モデルへ知識を移行するための有望なアプローチとして登場した。
学習埋め込み線形射影(LELP)と呼ばれる教師のモデル表現から知識を抽出する新しい手法を提案する。
Amazon ReviewsやSentiment140のような大規模NLPベンチマークの実験的な評価では、LELPはバイナリや少数クラスの問題に対する既存の最先端蒸留アルゴリズムと一貫して競合し、典型的には優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-30T16:07:34Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - PromptKD: Distilling Student-Friendly Knowledge for Generative Language Models via Prompt Tuning [30.70974942397732]
本稿では,学生に親しみやすい知識を伝達する生成言語モデルを実現するために,PromptKDを提案する。
命令追従データセットの実験は、PromptKDが最先端のパフォーマンスを達成することを示す。
さらに分析したところ、学生に親しみやすい知識の蒸留は、トレーニングプロセス全体を通して効果的に露光バイアスを軽減することが示唆された。
論文 参考訳(メタデータ) (2024-02-20T09:10:08Z) - Revisiting Knowledge Distillation for Autoregressive Language Models [88.80146574509195]
知識蒸留(KD)を改善するための簡易かつ効果的な適応型教育法(ATKD)を提案する。
ATKDの中核は、ロート学習を減らし、教育をより多様で柔軟なものにすることだ。
8つのLMタスクの実験は、ATKDの助けを借りて、様々なベースラインのKD手法が一貫した、重要なパフォーマンス向上を達成することを示した。
論文 参考訳(メタデータ) (2024-02-19T07:01:10Z) - Frameless Graph Knowledge Distillation [27.831929635701886]
教師が提供したグラフ知識は,代数と幾何学の両方を通して学生モデルによって学習され,消化されるかを示す。
提案モデルでは,推論の高速化を維持しながら,教師モデルと同一あるいはそれ以上の学習精度を生成できる。
論文 参考訳(メタデータ) (2023-07-13T08:56:50Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Distilling Knowledge from Self-Supervised Teacher by Embedding Graph
Alignment [52.704331909850026]
我々は、自己指導型事前学習モデルから他の学生ネットワークへ知識を伝達するための新しい知識蒸留フレームワークを定式化した。
自己教師型学習におけるインスタンス識別の精神に触発され,特徴埋め込み空間におけるグラフ定式化によるインスタンスとインスタンスの関係をモデル化する。
蒸留方式は, 学生ネットワーク上での表現学習を促進するために, 自己指導型知識の伝達に柔軟に適用できる。
論文 参考訳(メタデータ) (2022-11-23T19:27:48Z) - Iterative Self Knowledge Distillation -- From Pothole Classification to
Fine-Grained and COVID Recognition [6.744385328015559]
ポトホールの分類は、自動車事故や修理法案からドライバーを救うための道路検査車両にとって重要な課題となっている。
軽量ポットホール分類器を訓練するための反復自己知識蒸留(ISKD)を提案する。
論文 参考訳(メタデータ) (2022-02-04T17:47:43Z) - Distilling Dense Representations for Ranking using Tightly-Coupled
Teachers [52.85472936277762]
我々は最近提案された後期相互作用ColBERTモデルを改善するために知識蒸留を適用した。
ColBERT の表現型 MaxSim 演算子から知識を抽出し、関連度スコアを単純な点積に変換する。
提案手法はクエリ待ち時間を改善し,ColBERTの面倒なストレージ要件を大幅に削減する。
論文 参考訳(メタデータ) (2020-10-22T02:26:01Z) - Adversarial Self-Supervised Data-Free Distillation for Text
Classification [13.817252068643066]
本稿では,Adversarial Self-Supervised Data-Free Distillation (AS-DFD) という新しい2段階の無添加蒸留法を提案する。
我々のフレームワークは、NLPタスク用に設計された最初のデータフリー蒸留フレームワークである。
論文 参考訳(メタデータ) (2020-10-10T02:46:06Z) - Distilling Knowledge from Graph Convolutional Networks [146.71503336770886]
既存の知識蒸留法は畳み込みニューラルネットワーク(CNN)に焦点を当てている
本稿では,事前学習したグラフ畳み込みネットワーク(GCN)モデルから知識を抽出する手法を提案する。
提案手法は,GCNモデルに対する最先端の知識蒸留性能を実現する。
論文 参考訳(メタデータ) (2020-03-23T18:23:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。