論文の概要: Active Large Language Model-based Knowledge Distillation for Session-based Recommendation
- arxiv url: http://arxiv.org/abs/2502.15685v1
- Date: Sun, 15 Dec 2024 06:56:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 07:18:53.935743
- Title: Active Large Language Model-based Knowledge Distillation for Session-based Recommendation
- Title(参考訳): セッションベースレコメンデーションのためのアクティブな大規模言語モデルに基づく知識蒸留
- Authors: Yingpeng Du, Zhu Sun, Ziyan Wang, Haoyan Chua, Jie Zhang, Yew-Soon Ong,
- Abstract要約: 大規模言語モデル(LLM)は、正確なセッションベースレコメンデーション(SBR)のための有望な方法を提供する。
しかし、これらの手法は、SBRにおけるtextitLLMベースのKDでは困難に遭遇する。
アクティブな方法を提案する。
持続可能なAIに寄与するSBRにおけるLLMベースのKD法
- 参考スコア(独自算出の注目度): 32.28125997586886
- License:
- Abstract: Large language models (LLMs) provide a promising way for accurate session-based recommendation (SBR), but they demand substantial computational time and memory. Knowledge distillation (KD)-based methods can alleviate these issues by transferring the knowledge to a small student, which trains a student based on the predictions of a cumbersome teacher. However, these methods encounter difficulties for \textit{LLM-based KD in SBR}. 1) It is expensive to make LLMs predict for all instances in KD. 2) LLMs may make ineffective predictions for some instances in KD, e.g., incorrect predictions for hard instances or similar predictions as existing recommenders for easy instances. In this paper, we propose an active LLM-based KD method in SBR, contributing to sustainable AI. To efficiently distill knowledge from LLMs with limited cost, we propose to extract a small proportion of instances predicted by LLMs. Meanwhile, for a more effective distillation, we propose an active learning strategy to extract instances that are as effective as possible for KD from a theoretical view. Specifically, we first formulate gains based on potential effects (e.g., effective, similar, and incorrect predictions by LLMs) and difficulties (e.g., easy or hard to fit) of instances for KD. Then, we propose to maximize the minimal gains of distillation to find the optimal selection policy for active learning, which can largely avoid extracting ineffective instances in KD. Experiments on real-world datasets show that our method significantly outperforms state-of-the-art methods for SBR.
- Abstract(参考訳): 大規模言語モデル(LLM)は、正確なセッションベースレコメンデーション(SBR)を提供するが、かなりの計算時間とメモリを必要とする。
知識蒸留(KD)に基づく手法は、知識を小学生に伝達することでこれらの問題を軽減し、面倒な教師の予測に基づいて学生を訓練する。
しかし、これらの手法はSBRにおけるtextit{LLM-based KDの難しさに直面する。
1) LLM を KD のすべてのインスタンスに対して予測させるには, コストがかかる。
2) LLM は KD のいくつかのインスタンスに対して、例えば、ハードインスタンスの誤予測や、既存のリコメンデータと同様の予測を行うことができる。
本稿では,持続可能なAIの実現に寄与する,SBRにおけるアクティブLLMベースのKD手法を提案する。
限られたコストでLLMから知識を効率よく抽出するために,LLMが予測する少数の事例を抽出することを提案する。
一方, より効果的な蒸留法として, KD に有効である事例を理論的に抽出する能動的学習戦略を提案する。
具体的には、KDのインスタンスの潜在的効果(例えば、有効性、類似性、誤予測)と難易度(例えば、容易性、難易度)に基づいて、まずゲインを定式化する。
そこで本研究では,KDにおける非効率な事例の抽出をほとんど避けることのできる,アクティブラーニングのための最適選択ポリシーを見つけるために,蒸留の最小ゲインを最大化することを提案する。
実世界のデータセットを用いた実験により,本手法はSBRの最先端手法を著しく上回っていることがわかった。
関連論文リスト
- Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Does Unlearning Truly Unlearn? A Black Box Evaluation of LLM Unlearning Methods [1.9799527196428242]
大規模言語モデルアンラーニングは、LLMが悪意ある目的のために使用するのを防ぐために学んだ有害な情報を除去することを目的としている。
アンラーニングが一般的なモデル能力に顕著な影響を与えていることを示す。
簡単な方法で5ショットのプロンプトやリフレーズを行うことで、未学習ベンチマークの精度が10倍以上に向上する可能性があることを示す。
論文 参考訳(メタデータ) (2024-11-18T22:31:17Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Q-Sparse: All Large Language Models can be Fully Sparsely-Activated [93.45300714803429]
Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。
Q-Sparse は LLM における活性化の完全な分散を可能にし、推論においてかなりの効率向上をもたらす。
バッチトレーニングと推論のためのBlock Q-Sparseも導入しています。
論文 参考訳(メタデータ) (2024-07-15T17:59:29Z) - Direct Preference Knowledge Distillation for Large Language Models [73.50849692633953]
大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。
我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。
実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
論文 参考訳(メタデータ) (2024-06-28T09:23:40Z) - Knowledge Distillation vs. Pretraining from Scratch under a Fixed (Computation) Budget [2.53740603524637]
LM事前トレーニングのスケーリング法則は、より小さなモデルがより多くのデータでトレーニングされた場合、より大きなモデルとのギャップを埋める可能性があることを示唆している。
マスク言語モデリング(MLM)のいくつかのKD戦略に対して,スクラッチからの事前学習を公平な実験で比較した。
固定計算予算の下でデータを繰り返す必要がある場合、KDはスクラッチから事前学習よりも大きな利得が得られることがわかった。
論文 参考訳(メタデータ) (2024-04-30T07:40:35Z) - Re2LLM: Reflective Reinforcement Large Language Model for Session-based Recommendation [23.182787000804407]
セッションベースレコメンデーション(SBR)を強化するための有望なアプローチとして,大規模言語モデル(LLM)が登場している。
本稿では,SBRのための反射強化大言語モデル(Re2LLM)を提案する。
論文 参考訳(メタデータ) (2024-03-25T05:12:18Z) - A Survey on Knowledge Distillation of Large Language Models [99.11900233108487]
知識蒸留(KD)は、高度な能力をオープンソースモデルに転送するための重要な方法論である。
本稿では,大規模言語モデル(LLM)の領域におけるKDの役割を包括的に調査する。
論文 参考訳(メタデータ) (2024-02-20T16:17:37Z) - ELAD: Explanation-Guided Large Language Models Active Distillation [16.243249111524403]
LLM(Large Language Models)のデプロイメントと適用は、そのメモリ非効率性、計算要求、API推論の高コストによって妨げられている。
LLMの能力をより小さなモデルに伝達する伝統的な蒸留法は、知識が十分に伝達されているかどうかを判断できないことが多い。
本稿では,アノテーションコストとモデル性能のバランスを最適化するために,アクティブラーニング戦略を用いた説明誘導型ELAD(Explaination-Guided LLMs Active Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-20T15:47:59Z) - MiniLLM: Knowledge Distillation of Large Language Models [112.93051247165089]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。
より小さな言語モデルにLPMを蒸留するKD手法を提案する。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文 参考訳(メタデータ) (2023-06-14T14:44:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。