論文の概要: Graph Knowledge Distillation to Mixture of Experts
- arxiv url: http://arxiv.org/abs/2406.11919v1
- Date: Mon, 17 Jun 2024 04:00:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 00:46:12.060832
- Title: Graph Knowledge Distillation to Mixture of Experts
- Title(参考訳): 専門家の混在に対するグラフ知識蒸留
- Authors: Pavel Rumiantsev, Mark Coates,
- Abstract要約: グラフニューラルネットワーク(GNN)は、ノード分類タスクに最適なアーキテクチャ選択である。
遅延問題の解決策の1つは、訓練されたGNNからMLP(Multi-Layer Perceptron)への知識蒸留を行うことである。
本稿では,専門家モデルではなく,特別に設計された学生モデルを用いて,パフォーマンス上の問題に対処することを提案する。
- 参考スコア(独自算出の注目度): 18.672184596814077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In terms of accuracy, Graph Neural Networks (GNNs) are the best architectural choice for the node classification task. Their drawback in real-world deployment is the latency that emerges from the neighbourhood processing operation. One solution to the latency issue is to perform knowledge distillation from a trained GNN to a Multi-Layer Perceptron (MLP), where the MLP processes only the features of the node being classified (and possibly some pre-computed structural information). However, the performance of such MLPs in both transductive and inductive settings remains inconsistent for existing knowledge distillation techniques. We propose to address the performance concerns by using a specially-designed student model instead of an MLP. Our model, named Routing-by-Memory (RbM), is a form of Mixture-of-Experts (MoE), with a design that enforces expert specialization. By encouraging each expert to specialize on a certain region on the hidden representation space, we demonstrate experimentally that it is possible to derive considerably more consistent performance across multiple datasets.
- Abstract(参考訳): 精度の面では、ノード分類タスクにおいて、グラフニューラルネットワーク(GNN)が最適なアーキテクチャ選択である。
現実のデプロイメントにおける彼らの欠点は、近隣の処理操作から生じるレイテンシである。
遅延問題の1つの解決策は、訓練されたGNNからMulti-Layer Perceptron (MLP)への知識蒸留を行うことである。
しかし, 従来の知識蒸留技術では, トランスダクティブ・インダクティブ・セッティングでの性能は相容れない。
MLPの代わりに特別設計の学生モデルを用いて性能問題に対処することを提案する。
我々のモデルはRubM(Rubing-by-Memory)と呼ばれ、Mixture-of-Experts(MoE)の一種であり、専門家の専門化を強制する設計である。
隠れ表現空間上の特定の領域を専門化することを各専門家に促すことにより、複数のデータセット間でより一貫性のあるパフォーマンスを導出できることを実験的に実証する。
関連論文リスト
- Teaching MLPs to Master Heterogeneous Graph-Structured Knowledge for Efficient and Accurate Inference [53.38082028252104]
我々はHGNNの優れた性能とリレーショナルの効率的な推論を組み合わせたHG2MとHG2M+を紹介する。
HG2Mは直接、教師HGNNの入力とソフトラベルをターゲットとしてノード特徴を持つ生徒を訓練する。
HG2Mは、大規模IGB-3M-19データセット上でのHGNNよりも379.24$timesの速度アップを示す。
論文 参考訳(メタデータ) (2024-11-21T11:39:09Z) - Noise-Resilient Unsupervised Graph Representation Learning via Multi-Hop Feature Quality Estimation [53.91958614666386]
グラフニューラルネットワーク(GNN)に基づく教師なしグラフ表現学習(UGRL)
マルチホップ特徴量推定(MQE)に基づく新しいUGRL法を提案する。
論文 参考訳(メタデータ) (2024-07-29T12:24:28Z) - AdaGMLP: AdaBoosting GNN-to-MLP Knowledge Distillation [15.505402580010104]
GNN-to-MLPナレッジ蒸留と呼ばれる新しい手法の波が出現した。
彼らは、より効率的な学生にGNN学習の知識を移すことを目標としている。
これらの手法は、不十分なトレーニングデータと不完全なテストデータを持つ状況において課題に直面している。
本稿では,AdaBoosting GNN-to-MLPナレッジ蒸留フレームワークであるAdaGMLPを提案する。
論文 参考訳(メタデータ) (2024-05-23T08:28:44Z) - VQGraph: Rethinking Graph Representation Space for Bridging GNNs and
MLPs [97.63412451659826]
VQGraphは、各ノードのローカルサブストラクチャを離散コードとしてエンコードできるグラフデータ上の構造認識トークン化器を学習する。
VQGraphは、GNN-to-MLP蒸留におけるトランスダクティブおよびインダクティブの両方で、新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-04T02:58:08Z) - Efficient Deep Spiking Multi-Layer Perceptrons with Multiplication-Free Inference [13.924924047051782]
スパイキングニューラルネットワーク(SNN)の深部畳み込みアーキテクチャは、画像分類性能を大幅に向上し、計算負荷を低減した。
本研究は、MLP(Multi-Layer Perceptrons)の進歩からインスピレーションを得て、新しい経路を探求する。
MFIの互換性を維持するためにバッチ正規化を用いる革新的なスパイクアーキテクチャを提案する。
我々は,グローバルな受容場と局所的な特徴抽出を効果的に組み合わせた,効率的なマルチステージスパイクネットワークを構築した。
論文 参考訳(メタデータ) (2023-06-21T16:52:20Z) - SA-MLP: Distilling Graph Knowledge from GNNs into Structure-Aware MLP [46.52398427166938]
予測加速の1つの有望な方向は、GNNをメッセージパスなしの学生多層パーセプトロンに蒸留することである。
本稿では,構造化情報のための学習能力を高めるための構造混合知識戦略を提案する。
我々のSA-MLPは、より高速な推論支援を維持しながら、教師のGNNを一貫して上回ります。
論文 参考訳(メタデータ) (2022-10-18T05:55:36Z) - NOSMOG: Learning Noise-robust and Structure-aware MLPs on Graphs [41.85649409565574]
グラフネットワーク(GNN)は、非ユークリッド構造データを扱う上での有効性を実証している。
既存の方法は、ノードコンテンツ機能にのみ依存するマルチ層パーセプトロン(MLP)をトレーニングすることで、このスケーラビリティ問題に対処しようとする。
本稿では,NOSMOG(Noise-robust Structure-Awares On Graphs)を学習し,その課題を克服する。
論文 参考訳(メタデータ) (2022-08-22T01:47:07Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z) - Local Augmentation for Graph Neural Networks [78.48812244668017]
本稿では,局所的な部分グラフ構造によりノード特性を向上する局所拡張を提案する。
局所的な拡張に基づいて、プラグイン・アンド・プレイ方式で任意のGNNモデルに適用可能な、LA-GNNという新しいフレームワークをさらに設計する。
論文 参考訳(メタデータ) (2021-09-08T18:10:08Z) - ROD: Reception-aware Online Distillation for Sparse Graphs [23.55530524584572]
疎グラフ学習のための新しいレセプション対応オンライン知識蒸留手法 ROD を提案する。
RODのための3つの監視信号: マルチスケールの受信対応グラフ知識、タスクベース監視、豊富な蒸留知識。
我々のアプローチは9つのデータセットと様々なグラフベースのタスクで広く評価されている。
論文 参考訳(メタデータ) (2021-07-25T11:55:47Z) - Understanding and Resolving Performance Degradation in Graph
Convolutional Networks [105.14867349802898]
グラフ畳み込みネットワーク(GCN)は複数のレイヤを積み重ね、グラフ構造化データ上でノード表現を学習するためのPROPとTRANを実行する。
GCNはモデルが深くなるとパフォーマンスが低下する傾向がある。
本稿では,TRANやPROPのみを積み重ねることによるGCNの性能劣化について実験的に検討する。
論文 参考訳(メタデータ) (2020-06-12T12:12:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。