Fugu-MT 論文翻訳(概要): Propagate & Distill: Towards Effective Graph Learners Using Propagation-Embracing MLPs

論文の概要: Propagate & Distill: Towards Effective Graph Learners Using Propagation-Embracing MLPs

arxiv url: http://arxiv.org/abs/2311.17781v1
Date: Wed, 29 Nov 2023 16:26:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 20:46:41.734178
Title: Propagate & Distill: Towards Effective Graph Learners Using Propagation-Embracing MLPs
Title（参考訳）: Propagate & Distill: Propagate-Embracing MLPを用いた効果的なグラフ学習者を目指して
Authors: Yong-Min Shin, Won-Yong Shin
Abstract要約: 教師グラフニューラルネットワーク(GNN)による知識蒸留による学生の訓練機能変換を$T$から分離したGNNにインスパイアされた私たちは、蒸留プロセスを再構成して、学生に$T$と$Pi$の両方を学ぶようにしました。本稿では, 蒸留前の教師の出力を伝搬するプロパゲート・アンド・ディスティル (P&D) を提案し, 逆伝播の近似過程として解釈できる。
参考スコア（独自算出の注目度）: 9.731314045194495
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent studies attempted to utilize multilayer perceptrons (MLPs) to solve semisupervised node classification on graphs, by training a student MLP by knowledge distillation from a teacher graph neural network (GNN). While previous studies have focused mostly on training the student MLP by matching the output probability distributions between the teacher and student models during distillation, it has not been systematically studied how to inject the structural information in an explicit and interpretable manner. Inspired by GNNs that separate feature transformation $T$ and propagation $\Pi$, we re-frame the distillation process as making the student MLP learn both $T$ and $\Pi$. Although this can be achieved by applying the inverse propagation $\Pi^{-1}$ before distillation from the teacher, it still comes with a high computational cost from large matrix multiplications during training. To solve this problem, we propose Propagate & Distill (P&D), which propagates the output of the teacher before distillation, which can be interpreted as an approximate process of the inverse propagation. We demonstrate that P&D can readily improve the performance of the student MLP.
Abstract（参考訳）: 近年,教師グラフニューラルネットワーク(gnn)による知識蒸留による学生mlpの学習により,グラフ上の半教師ノード分類の解法として多層パーセプトロン(mlps)を用いた研究が行われている。従来の研究では, 蒸留中の教師と生徒モデルの出力確率分布を一致させることで, 学生mlpの訓練に重点を置いてきたが, 構造情報を明示的かつ解釈可能な方法で注入する方法は体系的に研究されていない。機能変換の$T$と伝搬の$\Pi$を分離したGNNにインスパイアされた私たちは、蒸留プロセスを再構成して、学生MLPが$T$と$\Pi$の両方を学ぶようにしました。これは、教師が蒸留する前に逆伝播$\pi^{-1}$を適用することで達成できるが、訓練中の大きな行列の乗算による計算コストは高い。この問題を解決するために, 蒸留前の教師の出力を伝搬するプロパゲート・アンド・ディスティル (P&D) を提案し, 逆伝播の近似過程として解釈できる。我々は,P&Dが学生MLPの性能を向上できることを実証した。

関連論文リスト

Heuristic Methods are Good Teachers to Distill MLPs for Graph Link Prediction [61.70012924088756]
グラフニューラルネットワーク(GNN)の教師をMLP(Multi-Layer Perceptrons)の学生に拡張することは、強力なパフォーマンスを実現するための効果的なアプローチとして現れている。しかし、既存の蒸留法では標準のGNNのみを使用し、リンク予測専用モデル(GNN4LP)や方法(一般的な隣人など)など代替の教師を見落としている。本稿ではまず, GNN-to-MLP蒸留における異なる教師の影響について検討し, より強い教師は必ずしもより強い生徒を産み出すわけではないが, より弱い手法は, 訓練コストを大幅に削減して, 近GNNのパフォーマンスを教えることができることを示した。
論文参考訳（メタデータ） (2025-04-08T16:35:11Z)
Distill Not Only Data but Also Rewards: Can Smaller Language Models Surpass Larger Ones? [58.80794196076336]
大型言語モデル(LLM)の蒸留は、教師による微調整(SFT)を通して教師モデルの応答を伝達するのが一般的である。本稿では, 応答と報酬の両方を伝達する新しい蒸留パイプラインを提案する。本手法は,教師と生徒の両方の反応の固有構造を利用した自己教師機構によって擬似回帰を生成する。
論文参考訳（メタデータ） (2025-02-26T20:50:11Z)
On Teacher Hacking in Language Model Distillation [61.19867259475047]
我々は,教師のハッキングと呼ばれる同様の現象が,知識蒸留中に起こりうるかどうかを考察する。これは、教師LMがそれ自体が真の分布の完全な近似であるからである。オンラインデータ生成技術は、教師のハッキングを効果的に軽減する。
論文参考訳（メタデータ） (2025-02-04T19:26:28Z)
Teach Harder, Learn Poorer: Rethinking Hard Sample Distillation for GNN-to-MLP Knowledge Distillation [56.912354708167534]
グラフニューラルネットワーク(GNN)と軽量マルチ層パーセプトロン(MLP) GNNto-MLP Knowledge Distillation (KD)は、よく訓練された教師であるGNNの知識を学生に蒸留することを提案する。本稿では,単純かつ効果的なGNN-to-MLP蒸留(HGMD)フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-20T06:13:00Z)
Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。シーケンスレベルでは、シーケンス修正と再生戦略を提案する。トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文参考訳（メタデータ） (2024-07-14T03:51:49Z)
Understanding the Gains from Repeated Self-Distillation [65.53673000292079]
自己蒸留は、学生モデルが教師モデルと同じアーキテクチャを持つ知識蒸留の一種である。多段階の自己蒸留によって達成される余剰リスクは、単段階の自己蒸留において著しく改善できることを示す。 UCIレポジトリの回帰タスクに関する実証的な結果は、学習モデルのリスク(MSE)を最大47%削減することを示している。
論文参考訳（メタデータ） (2024-07-05T15:48:34Z)
Unveiling the Unseen Potential of Graph Learning through MLPs: Effective Graph Learners Using Propagation-Embracing MLPs [9.731314045194495]
教師ニューラルネットワーク(GNN)による知識蒸留による学生の訓練変換$T$と伝搬$Pi$を分離するGNNにインスパイアされた私たちは、KDプロセスを再構成して、学生が明示的に$T$と$Pi$を学習できるようにします。本稿では,KD 以前の教師 GNN の出力を伝搬する Propagate & Distill (P&D) を提案し,逆伝播 $Pi-1$ の近似過程として解釈できる。
論文参考訳（メタデータ） (2023-11-20T13:39:19Z)
Extracting Low-/High- Frequency Knowledge from Graph Neural Networks and Injecting it into MLPs: An Effective GNN-to-MLP Distillation Framework [36.160251860788314]
完全周波数GNN-to-MLP (FFG2M) 蒸留フレームワークを提案する。我々は、GNNが学んだ知識をスペクトル領域の低周波成分と高周波成分に分解する。既存のGNN-to-MLP蒸留における入水可能性について検討する。
論文参考訳（メタデータ） (2023-05-18T06:57:06Z)
Robust Knowledge Distillation from RNN-T Models With Noisy Training Labels Using Full-Sum Loss [32.816725317261934]
本研究は、知識蒸留(KD)を研究し、リカレントニューラルネットワークトランスデューサ(RNN-T)モデルに対する制約に対処する。本研究は,RNN-Tモデルにおいて,系列レベルのKD,フルサム蒸留法が他の蒸留法よりも優れていることを示す。また,教師の系列識別知識を蒸留し,WERのさらなる改善につながるフルサム蒸留の変種を提案する。
論文参考訳（メタデータ） (2023-03-10T14:46:23Z)
HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文参考訳（メタデータ） (2023-02-19T17:37:24Z)
Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文参考訳（メタデータ） (2022-11-27T05:14:03Z)
Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文参考訳（メタデータ） (2020-06-23T15:58:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。