論文の概要: Improving LLM-based Recommendation with Self-Hard Negatives from Intermediate Layers
- arxiv url: http://arxiv.org/abs/2602.17410v1
- Date: Thu, 19 Feb 2026 14:37:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.100383
- Title: Improving LLM-based Recommendation with Self-Hard Negatives from Intermediate Layers
- Title(参考訳): 中間層からの自己嫌悪によるLCMに基づく勧告の改善
- Authors: Bingqian Li, Bowen Zheng, Xiaolei Wang, Long Zhang, Jinpeng Wang, Sheng Chen, Wayne Xin Zhao, Ji-rong Wen,
- Abstract要約: ILRecはLLMベースのレコメンデーションシステムのための新しい好みの微調整フレームワークである。
負の信号に対してトークンレベルの報酬を割り当てるための軽量な協調フィルタリングモデルを提案する。
3つのデータセットの実験は、LLMベースのレコメンデータシステムの性能向上におけるILRecの有効性を示している。
- 参考スコア(独自算出の注目度): 80.55429742713623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown great promise in recommender systems, where supervised fine-tuning (SFT) is commonly used for adaptation. Subsequent studies further introduce preference learning to incorporate negative samples into the training process. However, existing methods rely on sequence-level, offline-generated negatives, making them less discriminative and informative when adapting LLMs to recommendation tasks with large negative item spaces. To address these challenges, we propose ILRec, a novel preference fine-tuning framework for LLM-based recommendation, leveraging self-hard negative signals extracted from intermediate layers to improve preference learning. Specifically, we identify self-hard negative tokens from intermediate layers as fine-grained negative supervision that dynamically reflects the model's preference learning process. To effectively integrate these signals into training, we design a two-stage framework comprising cross-layer preference optimization and cross-layer preference distillation, enabling the model to jointly discriminate informative negatives and enhance the quality of negative signals from intermediate layers. In addition, we introduce a lightweight collaborative filtering model to assign token-level rewards for negative signals, mitigating the risk of over-penalizing false negatives. Extensive experiments on three datasets demonstrate ILRec's effectiveness in enhancing the performance of LLM-based recommender systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、教師付き微調整(SFT)が適応に一般的に使用されるレコメンデーションシステムにおいて大きな可能性を示している。
その後の研究では、ネガティブサンプルをトレーニングプロセスに組み込むための嗜好学習が導入された。
しかし、既存の手法はシーケンスレベルのオフライン生成陰性に依存しており、LLMを大きな負のアイテム空間を持つタスクに適応させる際、識別的かつ情報的でない。
これらの課題に対処するために、中間層から抽出した自己強弱負信号を利用して優先学習を改善するLLMリコメンデーションのための新しい選好微調整フレームワークであるILRecを提案する。
具体的には、中間層からの自己固い負のトークンを、モデルの選好学習過程を動的に反映する微粒な負の監督として識別する。
これらの信号を効果的に訓練に統合するために, 層間優先最適化と層間優先蒸留を組み合わせた2段階の枠組みを設計し, 中間層からの負信号の品質を向上する。
さらに、負の信号に対してトークンレベルの報酬を割り当てる軽量な協調フィルタリングモデルを導入し、偽の負を過給するリスクを軽減した。
3つのデータセットに対する大規模な実験は、LLMベースのレコメンデータシステムの性能向上におけるILRecの有効性を示している。
関連論文リスト
- MiniRec: Data-Efficient Reinforcement Learning for LLM-based Recommendation [50.417769112326546]
MiniRecは、RLベースの大規模言語モデル(LLM)レコメンデーションに適したデータ選択フレームワークである。
重要なRL信号 -- 報酬 -- を使ってサンプルの学習性を評価する。
論文 参考訳(メタデータ) (2026-02-04T07:15:49Z) - Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning [41.83677588934301]
負のサンプル拡張(BCPG-NSA)による行動制約付きポリシーのグラディエントを提案する。
BCPG-NSA は,1) サンプルセグメンテーション,2) LLM と PRM を併用した合意に基づくステップ正当性評価,3) 正のステップを負のサンプル内で効果的にマイニングするNSA とのポリシー最適化の3段階を含む,詳細なオフラインフレームワークである。
実験の結果、BCPG-NSAは、同じトレーニングデータセットを使用して、いくつかの挑戦的な数学/コーディング推論ベンチマークのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-05-20T14:16:49Z) - Can LLM-Driven Hard Negative Sampling Empower Collaborative Filtering? Findings and Potentials [9.668242919588199]
強い負のサンプルはモデル収束を加速し、決定境界を最適化する。
本稿ではセマンティックネガティブサンプリングの概念を紹介する。
協調信号によって制御される微調整LDMに基づくHNLMRecというフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-07T04:39:45Z) - Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning [45.64632177923583]
本研究は、不要なデータの影響を取り除くことを目的として、大規模言語モデル(LLM)アンラーニングの問題を研究する。
未学習の需要が増えているにもかかわらず、技術的に地平線を画した最適化フレームワークは欠如している。
我々はSimNPOと呼ばれるシンプルで効果的なアンラーニング最適化フレームワークを提案し、参照モデルへの依存をなくすことによる「単純さ」がアンラーニングの恩恵をもたらすことを示した。
論文 参考訳(メタデータ) (2024-10-09T17:58:12Z) - LLMEmb: Large Language Model Can Be a Good Embedding Generator for Sequential Recommendation [57.49045064294086]
大きな言語モデル(LLM)は、その人気とは無関係に、アイテム間の意味的関係をキャプチャする能力を持つ。
LLMEmb(LLMEmb)は、LCMを利用してアイテム埋め込みを生成し、逐次レコメンダシステム(SRS)の性能を向上させる手法である。
論文 参考訳(メタデータ) (2024-09-30T03:59:06Z) - Generating Negative Samples for Sequential Recommendation [83.60655196391855]
逐次レコメンデーション(SR)のための負のサンプル(イテム)を生成することを提案する。
アイテムに対する現在のSRモデルの学習されたユーザの好みに基づいて、各タイムステップで負の項目をサンプリングする。
4つの公開データセットの実験は、SRに高品質な負のサンプルを提供することの重要性を検証する。
論文 参考訳(メタデータ) (2022-08-07T05:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。