論文の概要: Alignahead: Online Cross-Layer Knowledge Extraction on Graph Neural
Networks
- arxiv url: http://arxiv.org/abs/2205.02468v1
- Date: Thu, 5 May 2022 06:48:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-07 02:50:30.157300
- Title: Alignahead: Online Cross-Layer Knowledge Extraction on Graph Neural
Networks
- Title(参考訳): Alignahead: グラフニューラルネットワークによるオンラインクロス層知識抽出
- Authors: Jiongyu Guo, Defang Chen, Can Wang
- Abstract要約: グラフニューラルネットワーク(GNN)上の既存の知識蒸留手法はほとんどオフラインである。
本稿では,この問題を解決するための新しいオンライン知識蒸留フレームワークを提案する。
一方の学生層を別の学生モデルの異なる深さの層に整列させることにより, クロス層蒸留戦略を開発する。
- 参考スコア(独自算出の注目度): 6.8080936803807734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing knowledge distillation methods on graph neural networks (GNNs) are
almost offline, where the student model extracts knowledge from a powerful
teacher model to improve its performance. However, a pre-trained teacher model
is not always accessible due to training cost, privacy, etc. In this paper, we
propose a novel online knowledge distillation framework to resolve this
problem. Specifically, each student GNN model learns the extracted local
structure from another simultaneously trained counterpart in an alternating
training procedure. We further develop a cross-layer distillation strategy by
aligning ahead one student layer with the layer in different depth of another
student model, which theoretically makes the structure information spread over
all layers. Experimental results on five datasets including PPI,
Coauthor-CS/Physics and Amazon-Computer/Photo demonstrate that the student
performance is consistently boosted in our collaborative training framework
without the supervision of a pre-trained teacher model. In addition, we also
find that our alignahead technique can accelerate the model convergence speed
and its effectiveness can be generally improved by increasing the student
numbers in training. Code is available:
https://github.com/GuoJY-eatsTG/Alignahead
- Abstract(参考訳): グラフニューラルネットワーク(GNN)上の既存の知識蒸留手法はほとんどオフラインであり、学生モデルは強力な教師モデルから知識を抽出し、その性能を向上させる。
しかし、トレーニングコストやプライバシなどのために、事前訓練された教師モデルが常にアクセス可能であるとは限らない。
本稿では,この問題を解決するためのオンライン知識蒸留フレームワークを提案する。
具体的には、各学生gnnモデルは、交互に訓練された他の生徒から抽出された局所構造を学習する。
さらに, 留学生層を他の留学生モデルの異なる深さの層に調整し, 理論的に全層にわたって構造情報を拡散させることにより, クロスレイヤー蒸留戦略を展開する。
PPI、Coauthor-CS/Physics、Amazon-Computer/Photoを含む5つのデータセットの実験結果は、事前訓練された教師モデルの監督なしに、学生のパフォーマンスが継続的に向上していることを示しています。
また,本手法はモデルの収束速度を向上し,学生数を増大させることで,その効果を全般的に向上させることができることも見いだした。
コード提供: https://github.com/guojy-eatstg/alignahead
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Frameless Graph Knowledge Distillation [27.831929635701886]
教師が提供したグラフ知識は,代数と幾何学の両方を通して学生モデルによって学習され,消化されるかを示す。
提案モデルでは,推論の高速化を維持しながら,教師モデルと同一あるいはそれ以上の学習精度を生成できる。
論文 参考訳(メタデータ) (2023-07-13T08:56:50Z) - Distilling Knowledge from Self-Supervised Teacher by Embedding Graph
Alignment [52.704331909850026]
我々は、自己指導型事前学習モデルから他の学生ネットワークへ知識を伝達するための新しい知識蒸留フレームワークを定式化した。
自己教師型学習におけるインスタンス識別の精神に触発され,特徴埋め込み空間におけるグラフ定式化によるインスタンスとインスタンスの関係をモデル化する。
蒸留方式は, 学生ネットワーク上での表現学習を促進するために, 自己指導型知識の伝達に柔軟に適用できる。
論文 参考訳(メタデータ) (2022-11-23T19:27:48Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Online Cross-Layer Knowledge Distillation on Graph Neural Networks with
Deep Supervision [6.8080936803807734]
グラフニューラルネットワーク(GNN)は、学術と産業の両方で最も人気のある研究トピックの1つとなっている。
大規模なデータセットは、限られたリソースを持つエッジデバイスにGNNをデプロイする上で、大きな課題となっている。
本稿ではAlignahead++と呼ばれる新しいオンライン知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-25T03:21:20Z) - Revisiting Knowledge Distillation: An Inheritance and Exploration
Framework [153.73692961660964]
知識蒸留(KD)は、教師モデルから生徒モデルに知識を伝達する一般的な手法である。
新たな継承・探索知識蒸留フレームワーク(IE-KD)を提案する。
我々のIE-KDフレームワークは汎用的であり、ディープニューラルネットワークを訓練するための既存の蒸留や相互学習手法と簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-01T02:20:56Z) - Extract the Knowledge of Graph Neural Networks and Go Beyond it: An
Effective Knowledge Distillation Framework [42.57467126227328]
半教師学習の課題をグラフ上で解決するための知識蒸留に基づくフレームワークを提案する。
このフレームワークは、任意の学習したGNNモデルの知識を抽出し、よく設計された学生モデルに注入する。
実験結果から,学習者モデルは平均1.4%~4.7%の教師モデルより一貫して優れていた。
論文 参考訳(メタデータ) (2021-03-04T08:13:55Z) - Distilling Knowledge from Graph Convolutional Networks [146.71503336770886]
既存の知識蒸留法は畳み込みニューラルネットワーク(CNN)に焦点を当てている
本稿では,事前学習したグラフ畳み込みネットワーク(GCN)モデルから知識を抽出する手法を提案する。
提案手法は,GCNモデルに対する最先端の知識蒸留性能を実現する。
論文 参考訳(メタデータ) (2020-03-23T18:23:11Z) - Efficient Crowd Counting via Structured Knowledge Transfer [122.30417437707759]
クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。
本稿では,学生ネットワークを軽量かつ高効率に構築する構造的知識伝達フレームワークを提案する。
我々のモデルはNvidia 1080 GPUで最低6.5$times$のスピードアップを取得し、最先端のパフォーマンスも達成しています。
論文 参考訳(メタデータ) (2020-03-23T08:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。