論文の概要: Distill2Vec: Dynamic Graph Representation Learning with Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2011.05664v1
- Date: Wed, 11 Nov 2020 09:49:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 23:16:16.699479
- Title: Distill2Vec: Dynamic Graph Representation Learning with Knowledge
Distillation
- Title(参考訳): Distill2Vec:知識蒸留による動的グラフ表現学習
- Authors: Stefanos Antaris, Dimitrios Rafailidis
- Abstract要約: 訓練可能なパラメータの少ないコンパクトなモデルを学習するための知識蒸留手法であるDistill2Vecを提案する。
公開データセットを用いた実験は、いくつかの最先端アプローチよりも提案したモデルの方が優れていることを示す。
- 参考スコア(独自算出の注目度): 4.568777157687959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic graph representation learning strategies are based on different
neural architectures to capture the graph evolution over time. However, the
underlying neural architectures require a large amount of parameters to train
and suffer from high online inference latency, that is several model parameters
have to be updated when new data arrive online. In this study we propose
Distill2Vec, a knowledge distillation strategy to train a compact model with a
low number of trainable parameters, so as to reduce the latency of online
inference and maintain the model accuracy high. We design a distillation loss
function based on Kullback-Leibler divergence to transfer the acquired
knowledge from a teacher model trained on offline data, to a small-size student
model for online data. Our experiments with publicly available datasets show
the superiority of our proposed model over several state-of-the-art approaches
with relative gains up to 5% in the link prediction task. In addition, we
demonstrate the effectiveness of our knowledge distillation strategy, in terms
of number of required parameters, where Distill2Vec achieves a compression
ratio up to 7:100 when compared with baseline approaches. For reproduction
purposes, our implementation is publicly available at
https://stefanosantaris.github.io/Distill2Vec.
- Abstract(参考訳): 動的グラフ表現学習戦略は、時間とともにグラフの進化を捉えるために異なるニューラルネットワークアーキテクチャに基づいている。
しかし、基盤となるニューラルネットワークは、トレーニングのために大量のパラメータを必要とし、オンラインの推論遅延が高く、新しいデータがオンラインに到着したときにはいくつかのモデルパラメータを更新する必要がある。
本研究では,オンライン推論の遅延を低減し,モデルの精度を高く維持するために,学習可能なパラメータの少ないコンパクトモデルを訓練するための知識蒸留戦略である distill2vec を提案する。
オフラインデータで訓練された教師モデルからオンラインデータのための小型の学生モデルに移行するために,Kulback-Leibler分散に基づく蒸留損失関数を設計する。
公開データセットを用いた実験では,提案手法がリンク予測タスクの5%まで向上し,最先端手法よりも優れていることが示された。
さらに,我々の知識蒸留戦略が,必要パラメータ数の観点から有効性を示す。そこでは,distill2vecは,ベースラインアプローチと比較して7:100までの圧縮率を達成している。
再現のために、我々の実装はhttps://stefanosantaris.github.io/Distill2Vec.comで公開されています。
関連論文リスト
- BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Learning to Jump: Thinning and Thickening Latent Counts for Generative
Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。
ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文 参考訳(メタデータ) (2023-05-28T05:38:28Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Synthetic data generation method for data-free knowledge distillation in
regression neural networks [0.0]
知識蒸留は、教師として知られる大きなニューラルネットワークを、学生として知られる小さなニューラルネットワークに圧縮する技術である。
従来, 学生モデルに逆らって学習したジェネレータモデルを用いて, 合成データを生成可能なデータフリー知識蒸留法が提案されてきた。
本研究では, 各種合成データ生成手法の挙動について検討し, 新たな合成データ生成戦略を提案する。
論文 参考訳(メタデータ) (2023-01-11T07:26:00Z) - Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文 参考訳(メタデータ) (2022-11-21T03:09:42Z) - FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。
本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文 参考訳(メタデータ) (2022-04-10T11:38:33Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - EGAD: Evolving Graph Representation Learning with Self-Attention and
Knowledge Distillation for Live Video Streaming Events [4.332367445046418]
本稿では,ライブビデオストリーミングイベントにおける視聴者間の接続のネットワーク容量を正確に予測するために,重み付きグラフ上に動的グラフ表現学習モデルを提案する。
本稿では,連続的なグラフ畳み込みネットワーク間の重み付けに自己注意機構を導入することにより,グラフの進化を捉えるニューラルネットワークアーキテクチャEGADを提案する。
論文 参考訳(メタデータ) (2020-11-11T11:16:52Z) - An Efficient Method of Training Small Models for Regression Problems
with Knowledge Distillation [1.433758865948252]
回帰問題に対する知識蒸留の新しい定式化を提案する。
まず,教師モデル予測を用いて,教師モデルを用いた学習サンプルの退学率を下げる新たな損失関数,教師の退学率の減少を提案する。
マルチタスクネットワークを考えることで、学生モデルの特徴抽出の訓練がより効果的になる。
論文 参考訳(メタデータ) (2020-02-28T08:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。