論文の概要: Teach Harder, Learn Poorer: Rethinking Hard Sample Distillation for GNN-to-MLP Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2407.14768v1
- Date: Sat, 20 Jul 2024 06:13:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 20:54:16.031925
- Title: Teach Harder, Learn Poorer: Rethinking Hard Sample Distillation for GNN-to-MLP Knowledge Distillation
- Title(参考訳): Teach Harder, Learn Poorer: Rethinking Hard Sample Distillation for GNN-to-MLP Knowledge Distillation
- Authors: Lirong Wu, Yunfan Liu, Haitao Lin, Yufei Huang, Stan Z. Li,
- Abstract要約: グラフニューラルネットワーク(GNN)と軽量マルチ層パーセプトロン(MLP)
GNNto-MLP Knowledge Distillation (KD)は、よく訓練された教師であるGNNの知識を学生に蒸留することを提案する。
本稿では,単純かつ効果的なGNN-to-MLP蒸留(HGMD)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 56.912354708167534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To bridge the gaps between powerful Graph Neural Networks (GNNs) and lightweight Multi-Layer Perceptron (MLPs), GNN-to-MLP Knowledge Distillation (KD) proposes to distill knowledge from a well-trained teacher GNN into a student MLP. In this paper, we revisit the knowledge samples (nodes) in teacher GNNs from the perspective of hardness, and identify that hard sample distillation may be a major performance bottleneck of existing graph KD algorithms. The GNN-to-MLP KD involves two different types of hardness, one student-free knowledge hardness describing the inherent complexity of GNN knowledge, and the other student-dependent distillation hardness describing the difficulty of teacher-to-student distillation. However, most of the existing work focuses on only one of these aspects or regards them as one thing. This paper proposes a simple yet effective Hardness-aware GNN-to-MLP Distillation (HGMD) framework, which decouples the two hardnesses and estimates them using a non-parametric approach. Finally, two hardness-aware distillation schemes (i.e., HGMD-weight and HGMD-mixup) are further proposed to distill hardness-aware knowledge from teacher GNNs into the corresponding nodes of student MLPs. As non-parametric distillation, HGMD does not involve any additional learnable parameters beyond the student MLPs, but it still outperforms most of the state-of-the-art competitors. HGMD-mixup improves over the vanilla MLPs by 12.95% and outperforms its teacher GNNs by 2.48% averaged over seven real-world datasets.
- Abstract(参考訳): 強力なグラフニューラルネットワーク(GNN)と軽量マルチ層パーセプトロン(MLP)のギャップを埋めるために、GNN-to-MLP知識蒸留(KD)は、よく訓練された教師GNNからの知識を学生MLPに抽出することを提案する。
本稿では,教師のGNNにおける知識サンプル(ノード)を硬度の観点から再検討し,硬度サンプルの蒸留が既存のグラフKDアルゴリズムの主要な性能ボトルネックである可能性を確かめる。
GNN-to-MLP KDは、GNN知識の本質的な複雑さを記述した学生なしの知識硬度と、教師から学生への蒸留の難しさを記述した学生依存の蒸留硬度の2つの異なる種類からなる。
しかしながら、既存の作業のほとんどは、これらの側面の1つだけに焦点を当てたり、それらを1つと見なしている。
本稿では, 単純かつ効果的なGNN-to-MLP蒸留(HGMD)フレームワークを提案する。
最後に、教師のGNNから生徒のMLPのノードにハードネス対応の知識を蒸留するために、2つのハードネス対応蒸留スキーム(HGMD-weightとHGMD-mixup)が提案されている。
非パラメトリック蒸留法として、HGMDは学生のMLP以外の追加の学習可能なパラメータは含まないが、依然として最先端の競争相手のほとんどを上回っている。
HGMD-mixupはバニラMLPを12.95%改善し、教師のGNNを7つの実世界のデータセットで平均2.48%上回っている。
関連論文リスト
- Teaching MLPs to Master Heterogeneous Graph-Structured Knowledge for Efficient and Accurate Inference [53.38082028252104]
我々はHGNNの優れた性能とリレーショナルの効率的な推論を組み合わせたHG2MとHG2M+を紹介する。
HG2Mは直接、教師HGNNの入力とソフトラベルをターゲットとしてノード特徴を持つ生徒を訓練する。
HG2Mは、大規模IGB-3M-19データセット上でのHGNNよりも379.24$timesの速度アップを示す。
論文 参考訳(メタデータ) (2024-11-21T11:39:09Z) - A Teacher-Free Graph Knowledge Distillation Framework with Dual
Self-Distillation [58.813991312803246]
本稿では,教師モデルやGNNを必要としない教師自由グラフ自己蒸留(TGS)フレームワークを提案する。
TGSは、トレーニングにおけるグラフトポロジの認識の利点を享受しているが、推論におけるデータ依存から解放されている。
論文 参考訳(メタデータ) (2024-03-06T05:52:13Z) - VQGraph: Rethinking Graph Representation Space for Bridging GNNs and
MLPs [97.63412451659826]
VQGraphは、各ノードのローカルサブストラクチャを離散コードとしてエンコードできるグラフデータ上の構造認識トークン化器を学習する。
VQGraphは、GNN-to-MLP蒸留におけるトランスダクティブおよびインダクティブの両方で、新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-04T02:58:08Z) - Quantifying the Knowledge in GNNs for Reliable Distillation into MLPs [42.38007308086495]
トポロジを意識したグラフニューラルネットワーク(GNN)と推論効率のよいマルチ層パーセプトロン(MLP)のギャップを埋めるために、GLNNは、よく訓練された教師であるGNNから学生に知識を抽出することを提案する。
まず、GNNにおける情報エントロピーとノイズ摂動の不変性を測定することにより、知識信頼性の定量化を行う。
本稿では,各ノードが情報的かつ信頼性の高い知識ポイントである確率をモデル化する,知識に着想を得た信頼性蒸留(KRD)を提案する。
論文 参考訳(メタデータ) (2023-06-09T02:23:37Z) - Extracting Low-/High- Frequency Knowledge from Graph Neural Networks and
Injecting it into MLPs: An Effective GNN-to-MLP Distillation Framework [36.160251860788314]
完全周波数GNN-to-MLP (FFG2M) 蒸留フレームワークを提案する。
我々は、GNNが学んだ知識をスペクトル領域の低周波成分と高周波成分に分解する。
既存のGNN-to-MLP蒸留における入水可能性について検討する。
論文 参考訳(メタデータ) (2023-05-18T06:57:06Z) - On Self-Distilling Graph Neural Network [64.00508355508106]
GNN自己蒸留(GNN-SD)と呼ばれるGNNに対する教師なし知識蒸留法を提案する。
本手法は, 組込みグラフの非平滑性を効率よく定量化する, 提案した近傍不一致率(NDR)に基づいて構築する。
また、他の蒸留戦略の誘導に活用できる汎用的なGNN-SDフレームワークについても要約する。
論文 参考訳(メタデータ) (2020-11-04T12:29:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。