論文の概要: Scene-adaptive Knowledge Distillation for Sequential Recommendation via
Differentiable Architecture Search
- arxiv url: http://arxiv.org/abs/2107.07173v1
- Date: Thu, 15 Jul 2021 07:47:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-17 01:00:11.112194
- Title: Scene-adaptive Knowledge Distillation for Sequential Recommendation via
Differentiable Architecture Search
- Title(参考訳): 識別可能なアーキテクチャ探索によるシーケンスレコメンデーションのためのシーン適応型知識蒸留
- Authors: Lei Chen, Fajie Yuan, Jiaxi Yang, Min Yang, and Chengming Li
- Abstract要約: シーケンシャル・レコメンデータ・システム(SRS)は、ユーザの動的興味やシーケンシャルな行動パターンをモデル化する能力から、研究ホットスポットとなっている。
モデル表現能力を最大化するために、デフォルトの選択は、より大きく深いネットワークアーキテクチャを適用することである。
本稿では,教師モデルの知識を学生モデルに適応的に圧縮するフレームワークであるAdaRecを提案する。
- 参考スコア(独自算出の注目度): 19.798931417466456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequential recommender systems (SRS) have become a research hotspot due to
its power in modeling user dynamic interests and sequential behavioral
patterns. To maximize model expressive ability, a default choice is to apply a
larger and deeper network architecture, which, however, often brings high
network latency when generating online recommendations. Naturally, we argue
that compressing the heavy recommendation models into middle- or light- weight
neural networks is of great importance for practical production systems. To
realize such a goal, we propose AdaRec, a knowledge distillation (KD) framework
which compresses knowledge of a teacher model into a student model adaptively
according to its recommendation scene by using differentiable Neural
Architecture Search (NAS). Specifically, we introduce a target-oriented
distillation loss to guide the structure search process for finding the student
network architecture, and a cost-sensitive loss as constraints for model size,
which achieves a superior trade-off between recommendation effectiveness and
efficiency. In addition, we leverage Earth Mover's Distance (EMD) to realize
many-to-many layer mapping during knowledge distillation, which enables each
intermediate student layer to learn from other intermediate teacher layers
adaptively. Extensive experiments on real-world recommendation datasets
demonstrate that our model achieves competitive or better accuracy with notable
inference speedup comparing to strong counterparts, while discovering diverse
neural architectures for sequential recommender models under different
recommendation scenes.
- Abstract(参考訳): シーケンシャルリコメンデータシステム(srs)は、ユーザの動的関心やシーケンシャルな行動パターンをモデル化する能力があるため、研究のホットスポットとなっている。
モデル表現能力を最大化するために、デフォルトの選択肢は、より大きくより深いネットワークアーキテクチャを適用することである。
当然、重み付けされた推奨モデルを中級または軽量のニューラルネットワークに圧縮することは、実用的な生産システムにとって非常に重要であると論じる。
そこで本研究では,教師モデルの知識を,その推薦場面に応じて適応的に学生モデルに圧縮する知識蒸留(kd)フレームワーク adarec を提案する。
具体的には、学生ネットワークアーキテクチャを見つけるための構造探索プロセスを導くための目標指向蒸留損失と、モデルサイズの制約としてコスト感受性損失を導入し、推奨効率と効率のトレードオフを優れたものにする。
さらに,Earth Mover's Distance (EMD) を利用して知識蒸留中の多対多層マッピングを実現し,各中間生層が他の中間教師層から適応的に学習できるようにする。
実世界のレコメンデーションデータセットに関する広範な実験は、我々のモデルが強力なレコメンデーションシーンで逐次レコメンデーションモデルのための多様なニューラルアーキテクチャを発見しながら、強力なレコメンデーションのスピードアップによって競合性や精度が向上していることを示しています。
関連論文リスト
- Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文 参考訳(メタデータ) (2022-11-21T03:09:42Z) - Rethinking Pareto Frontier for Performance Evaluation of Deep Neural
Networks [2.167843405313757]
多目的最適化を用いて効率測定を再定義する。
競合変数と自然を同時に1つの相対効率尺度で組み合わせる。
これにより、異なるコンピューティングハードウェア上で効率的に動作するディープモデルをランク付けし、推論効率とトレーニング効率を客観的に組み合わせることができる。
論文 参考訳(メタデータ) (2022-02-18T15:58:17Z) - Guided Sampling-based Evolutionary Deep Neural Network for Intelligent
Fault Diagnosis [8.92307560991779]
我々は、モデルアーキテクチャの進化を導くためにポリシー勾配を利用する進化的ディープニューラルネットワークの新しいフレームワークを提案してきた。
提案フレームワークの有効性を3つのデータセットで検証した。
論文 参考訳(メタデータ) (2021-11-12T18:59:45Z) - Follow Your Path: a Progressive Method for Knowledge Distillation [23.709919521355936]
本稿では,教師モデルの指導信号を学生のパラメータ空間に投影することで,新しいモデルに依存しないProKTを提案する。
画像とテキストの双方で実験した結果,提案したProKTは既存の知識蒸留法と比較して常に優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2021-07-20T07:44:33Z) - Hybrid Model with Time Modeling for Sequential Recommender Systems [0.15229257192293202]
Booking.comはWSDM WebTour 2021 Challengeを組織した。
レコメンダシステムのための最先端のディープラーニングアーキテクチャをテストするために,いくつかの実験を行った。
実験結果から,narmの改善は他のベンチマーク手法よりも優れていた。
論文 参考訳(メタデータ) (2021-03-07T19:28:22Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。