論文の概要: Topology Distillation for Recommender System
- arxiv url: http://arxiv.org/abs/2106.08700v1
- Date: Wed, 16 Jun 2021 11:06:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 17:10:48.978938
- Title: Topology Distillation for Recommender System
- Title(参考訳): レコメンダシステムのためのトポロジー蒸留
- Authors: SeongKu Kang, Junyoung Hwang, Wonbin Kweon, Hwanjo Yu
- Abstract要約: Recommender Systems (RS) は、コンパクトな学生モデルを訓練するモデル圧縮技術である知識蒸留を採用している。
近年の研究では、教師の中間層から知識を伝達することで、学生の推薦品質が大幅に向上することが示されている。
本稿では,教師空間におけるトポロジカルな構造を伝達することで,生徒を導く新しいトポロジ的蒸留手法を提案する。
- 参考スコア(独自算出の注目度): 16.62204445256007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recommender Systems (RS) have employed knowledge distillation which is a
model compression technique training a compact student model with the knowledge
transferred from a pre-trained large teacher model. Recent work has shown that
transferring knowledge from the teacher's intermediate layer significantly
improves the recommendation quality of the student. However, they transfer the
knowledge of individual representation point-wise and thus have a limitation in
that primary information of RS lies in the relations in the representation
space. This paper proposes a new topology distillation approach that guides the
student by transferring the topological structure built upon the relations in
the teacher space. We first observe that simply making the student learn the
whole topological structure is not always effective and even degrades the
student's performance. We demonstrate that because the capacity of the student
is highly limited compared to that of the teacher, learning the whole
topological structure is daunting for the student. To address this issue, we
propose a novel method named Hierarchical Topology Distillation (HTD) which
distills the topology hierarchically to cope with the large capacity gap. Our
extensive experiments on real-world datasets show that the proposed method
significantly outperforms the state-of-the-art competitors. We also provide
in-depth analyses to ascertain the benefit of distilling the topology for RS.
- Abstract(参考訳): Recommender Systems (RS)は、訓練済みの大規模教師モデルから移行した知識を用いて、コンパクトな学生モデルを訓練するモデル圧縮技術である知識蒸留を採用している。
近年の研究では、教師の中間層から知識を伝達することで、学生の推薦品質が大幅に向上することが示されている。
しかし、それらは個々の表現の知識をポイントごとに転送し、したがって、 rs の一次情報は表現空間内の関係にあるという制限を持つ。
本稿では,教師空間におけるトポロジカルな構造を伝達することで,生徒を導く新しいトポロジ的蒸留手法を提案する。
まず, 単にトポロジカルな構造を学習させるだけでは必ずしも効果的ではなく, 生徒のパフォーマンスを低下させる。
生徒の能力は教師の能力に比べて非常に限られているため、位相構造全体を学ぶことは生徒にとって厄介であることを示す。
そこで本研究では,階層構造を階層的に蒸留する階層構造蒸留法(htd)を提案する。
実世界のデータセットに関する広範な実験により,提案手法が最先端の競争相手を大きく上回っていることが示された。
また, RSのトポロジを蒸留することのメリットを確認するために, 詳細な分析を行った。
関連論文リスト
- Linear Projections of Teacher Embeddings for Few-Class Distillation [14.99228980898161]
知識蒸留(KD)は、より大規模で複雑な教師モデルからより小さな学生モデルへ知識を移行するための有望なアプローチとして登場した。
学習埋め込み線形射影(LELP)と呼ばれる教師のモデル表現から知識を抽出する新しい手法を提案する。
Amazon ReviewsやSentiment140のような大規模NLPベンチマークの実験的な評価では、LELPはバイナリや少数クラスの問題に対する既存の最先端蒸留アルゴリズムと一貫して競合し、典型的には優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-30T16:07:34Z) - Distillation from Heterogeneous Models for Top-K Recommendation [43.83625440616829]
HetCompは、教師の軌跡から一連の知識を伝達することで、学生モデルをガイドするフレームワークである。
HetCompは学生モデルの蒸留品質と一般化を著しく改善する。
論文 参考訳(メタデータ) (2023-03-02T10:23:50Z) - Supervision Complexity and its Role in Knowledge Distillation [65.07910515406209]
蒸留した学生の一般化行動について検討する。
この枠組みは、教師の精度、教師の予測に対する生徒の差、教師の予測の複雑さの間の微妙な相互作用を強調している。
オンライン蒸留の有効性を実証し,様々な画像分類ベンチマークとモデルアーキテクチャに関する理論的知見を検証した。
論文 参考訳(メタデータ) (2023-01-28T16:34:47Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - Weakly Supervised Semantic Segmentation via Alternative Self-Dual
Teaching [82.71578668091914]
本稿では,分類とマスク・リファインメント・コンポーネントを統合された深層モデルに組み込む,コンパクトな学習フレームワークを確立する。
本稿では,高品質な知識相互作用を促進するために,新たな自己双対学習(ASDT)機構を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:56:56Z) - Scene-adaptive Knowledge Distillation for Sequential Recommendation via
Differentiable Architecture Search [19.798931417466456]
シーケンシャル・レコメンデータ・システム(SRS)は、ユーザの動的興味やシーケンシャルな行動パターンをモデル化する能力から、研究ホットスポットとなっている。
モデル表現能力を最大化するために、デフォルトの選択は、より大きく深いネットワークアーキテクチャを適用することである。
本稿では,教師モデルの知識を学生モデルに適応的に圧縮するフレームワークであるAdaRecを提案する。
論文 参考訳(メタデータ) (2021-07-15T07:47:46Z) - Distilling Knowledge via Intermediate Classifier Heads [0.5584060970507505]
知識蒸留は、事前訓練されたより大きな教師モデルのガイドを用いて、リソース限定の学生モデルを訓練するためのトランスファーラーニングアプローチである。
キャパシティギャップの影響を軽減するため,中間頭部による知識蒸留を導入する。
種々の教師と学生のペアとデータセットに関する実験により,提案手法が標準知識蒸留法よりも優れていることを示した。
論文 参考訳(メタデータ) (2021-02-28T12:52:52Z) - Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。
二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。
実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文 参考訳(メタデータ) (2020-12-15T23:43:28Z) - Distilling Knowledge from Graph Convolutional Networks [146.71503336770886]
既存の知識蒸留法は畳み込みニューラルネットワーク(CNN)に焦点を当てている
本稿では,事前学習したグラフ畳み込みネットワーク(GCN)モデルから知識を抽出する手法を提案する。
提案手法は,GCNモデルに対する最先端の知識蒸留性能を実現する。
論文 参考訳(メタデータ) (2020-03-23T18:23:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。