論文の概要: Improving LLM-based Recommendation with Self-Hard Negatives from Intermediate Layers
- arxiv url: http://arxiv.org/abs/2602.17410v1
- Date: Thu, 19 Feb 2026 14:37:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.100383
- Title: Improving LLM-based Recommendation with Self-Hard Negatives from Intermediate Layers
- Title(参考訳): 中間層からの自己嫌悪によるLCMに基づく勧告の改善
- Authors: Bingqian Li, Bowen Zheng, Xiaolei Wang, Long Zhang, Jinpeng Wang, Sheng Chen, Wayne Xin Zhao, Ji-rong Wen,
- Abstract要約: ILRecはLLMベースのレコメンデーションシステムのための新しい好みの微調整フレームワークである。
負の信号に対してトークンレベルの報酬を割り当てるための軽量な協調フィルタリングモデルを提案する。
3つのデータセットの実験は、LLMベースのレコメンデータシステムの性能向上におけるILRecの有効性を示している。
- 参考スコア(独自算出の注目度): 80.55429742713623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown great promise in recommender systems, where supervised fine-tuning (SFT) is commonly used for adaptation. Subsequent studies further introduce preference learning to incorporate negative samples into the training process. However, existing methods rely on sequence-level, offline-generated negatives, making them less discriminative and informative when adapting LLMs to recommendation tasks with large negative item spaces. To address these challenges, we propose ILRec, a novel preference fine-tuning framework for LLM-based recommendation, leveraging self-hard negative signals extracted from intermediate layers to improve preference learning. Specifically, we identify self-hard negative tokens from intermediate layers as fine-grained negative supervision that dynamically reflects the model's preference learning process. To effectively integrate these signals into training, we design a two-stage framework comprising cross-layer preference optimization and cross-layer preference distillation, enabling the model to jointly discriminate informative negatives and enhance the quality of negative signals from intermediate layers. In addition, we introduce a lightweight collaborative filtering model to assign token-level rewards for negative signals, mitigating the risk of over-penalizing false negatives. Extensive experiments on three datasets demonstrate ILRec's effectiveness in enhancing the performance of LLM-based recommender systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、教師付き微調整(SFT)が適応に一般的に使用されるレコメンデーションシステムにおいて大きな可能性を示している。
その後の研究では、ネガティブサンプルをトレーニングプロセスに組み込むための嗜好学習が導入された。
しかし、既存の手法はシーケンスレベルのオフライン生成陰性に依存しており、LLMを大きな負のアイテム空間を持つタスクに適応させる際、識別的かつ情報的でない。
これらの課題に対処するために、中間層から抽出した自己強弱負信号を利用して優先学習を改善するLLMリコメンデーションのための新しい選好微調整フレームワークであるILRecを提案する。
具体的には、中間層からの自己固い負のトークンを、モデルの選好学習過程を動的に反映する微粒な負の監督として識別する。
これらの信号を効果的に訓練に統合するために, 層間優先最適化と層間優先蒸留を組み合わせた2段階の枠組みを設計し, 中間層からの負信号の品質を向上する。
さらに、負の信号に対してトークンレベルの報酬を割り当てる軽量な協調フィルタリングモデルを導入し、偽の負を過給するリスクを軽減した。
3つのデータセットに対する大規模な実験は、LLMベースのレコメンデータシステムの性能向上におけるILRecの有効性を示している。
関連論文リスト
- Dual-Tree LLM-Enhanced Negative Sampling for Implicit Collaborative Filtering [40.89512526196666]
大型言語モデル(LLM)は推奨システムにおいて有望であることを示している。
既存の方法はテキスト情報とタスク固有の微調整に依存しており、実用性に制限がある。
テキストフリーかつ微調整不要なデュアルトレー型負サンプリング法(DTL-NS)を提案する。
論文 参考訳(メタデータ) (2026-02-20T14:32:41Z) - MiniRec: Data-Efficient Reinforcement Learning for LLM-based Recommendation [50.417769112326546]
MiniRecは、RLベースの大規模言語モデル(LLM)レコメンデーションに適したデータ選択フレームワークである。
重要なRL信号 -- 報酬 -- を使ってサンプルの学習性を評価する。
論文 参考訳(メタデータ) (2026-02-04T07:15:49Z) - Beyond Static LLM Policies: Imitation-Enhanced Reinforcement Learning for Recommendation [23.945049006150555]
大規模言語モデル(LLM)は、多様なデジタルプラットフォームにまたがってパーソナライズされたコンテンツを配信することによって、ユーザエンゲージメントを高める重要なツールとなっている。
LLMを主要なレコメンデーションポリシとして直接デプロイすることは、永続的なレイテンシの問題を含む、注目すべき課題を提示する。
本稿では,LLM生成軌道からの模倣学習を利用した新しいオフライン強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-15T07:28:29Z) - Evaluating Position Bias in Large Language Model Recommendations [3.430780143519032]
大規模言語モデル(LLM)は、リコメンデーションタスクのための汎用ツールとして、ますます研究されている。
LLMをベースとした推薦モデルは位置バイアスに悩まされ、その場合、プロンプト内の候補項目の順序がLLMの推薦に不均等に影響を及ぼす可能性がある。
本稿では,LLMレコメンデーションモデルにおける位置バイアスを軽減するための新たなプロンプト戦略であるRightingをIterative Selection経由で導入する。
論文 参考訳(メタデータ) (2025-08-04T03:30:26Z) - Bridging Supervised Learning and Reinforcement Learning in Math Reasoning [55.889740979706815]
強化学習(Reinforcement Learning, RL)は、二分検証信号による自己改善を可能にすることで、近年の数学能力の急上昇において中心的な役割を担っている。
本研究は,LLMが障害を反映し,外部教師なしで自律的に改善できる教師型アプローチである負認識ファインチューニング(NFT)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:17:40Z) - Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning [41.83677588934301]
負のサンプル拡張(BCPG-NSA)による行動制約付きポリシーのグラディエントを提案する。
BCPG-NSA は,1) サンプルセグメンテーション,2) LLM と PRM を併用した合意に基づくステップ正当性評価,3) 正のステップを負のサンプル内で効果的にマイニングするNSA とのポリシー最適化の3段階を含む,詳細なオフラインフレームワークである。
実験の結果、BCPG-NSAは、同じトレーニングデータセットを使用して、いくつかの挑戦的な数学/コーディング推論ベンチマークのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-05-20T14:16:49Z) - Can LLM-Driven Hard Negative Sampling Empower Collaborative Filtering? Findings and Potentials [9.668242919588199]
強い負のサンプルはモデル収束を加速し、決定境界を最適化する。
本稿ではセマンティックネガティブサンプリングの概念を紹介する。
協調信号によって制御される微調整LDMに基づくHNLMRecというフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-07T04:39:45Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning [45.64632177923583]
本研究は、不要なデータの影響を取り除くことを目的として、大規模言語モデル(LLM)アンラーニングの問題を研究する。
未学習の需要が増えているにもかかわらず、技術的に地平線を画した最適化フレームワークは欠如している。
我々はSimNPOと呼ばれるシンプルで効果的なアンラーニング最適化フレームワークを提案し、参照モデルへの依存をなくすことによる「単純さ」がアンラーニングの恩恵をもたらすことを示した。
論文 参考訳(メタデータ) (2024-10-09T17:58:12Z) - LLMEmb: Large Language Model Can Be a Good Embedding Generator for Sequential Recommendation [57.49045064294086]
大きな言語モデル(LLM)は、その人気とは無関係に、アイテム間の意味的関係をキャプチャする能力を持つ。
LLMEmb(LLMEmb)は、LCMを利用してアイテム埋め込みを生成し、逐次レコメンダシステム(SRS)の性能を向上させる手法である。
論文 参考訳(メタデータ) (2024-09-30T03:59:06Z) - Generating Negative Samples for Sequential Recommendation [83.60655196391855]
逐次レコメンデーション(SR)のための負のサンプル(イテム)を生成することを提案する。
アイテムに対する現在のSRモデルの学習されたユーザの好みに基づいて、各タイムステップで負の項目をサンプリングする。
4つの公開データセットの実験は、SRに高品質な負のサンプルを提供することの重要性を検証する。
論文 参考訳(メタデータ) (2022-08-07T05:44:13Z) - Reinforced Negative Sampling over Knowledge Graph for Recommendation [106.07209348727564]
我々は、高品質なネガティブを探索する強化学習エージェントとして機能する新しい負サンプリングモデル、知識グラフポリシーネットワーク(kgPolicy)を開発した。
kgPolicyは、ターゲットのポジティブなインタラクションからナビゲートし、知識を意識したネガティブなシグナルを適応的に受信し、最終的にはリコメンダをトレーニングする潜在的なネガティブなアイテムを生成する。
論文 参考訳(メタデータ) (2020-03-12T12:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。