論文の概要: MSL: Not All Tokens Are What You Need for Tuning LLM as a Recommender
- arxiv url: http://arxiv.org/abs/2504.04178v1
- Date: Sat, 05 Apr 2025 13:48:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:08:39.355832
- Title: MSL: Not All Tokens Are What You Need for Tuning LLM as a Recommender
- Title(参考訳): MSL:LLMをレコメンデーションとしてチューニングする上で必要なものは、すべてではない
- Authors: Bohao Wang, Feng Liu, Jiawei Chen, Xingyu Lou, Changwang Zhang, Jun Wang, Yuegang Sun, Yan Feng, Chun Chen, Can Wang,
- Abstract要約: 提案するMasked Softmax Loss (MSL) は,大規模言語モデル (LLM) を推奨する。
MSLは、損失計算中に架空のアイテム記述につながる可能性のある無効トークンを識別し、マスクすることで、LMLを改善している。
4つの公開データセットで実施された大規模な実験は、MSLの有効性をさらに検証し、NDCG@10で平均42.24%の改善を達成した。
- 参考スコア(独自算出の注目度): 24.03860153639828
- License:
- Abstract: Large language models (LLMs), known for their comprehension capabilities and extensive knowledge, have been increasingly applied to recommendation systems (RS). Given the fundamental gap between the mechanism of LLMs and the requirement of RS, researchers have focused on fine-tuning LLMs with recommendation-specific data to enhance their performance. Language Modeling Loss (LML), originally designed for language generation tasks, is commonly adopted. However, we identify two critical limitations of LML: 1) it exhibits significant divergence from the recommendation objective; 2) it erroneously treats all fictitious item descriptions as negative samples, introducing misleading training signals. To address these limitations, we propose a novel Masked Softmax Loss (MSL) tailored for fine-tuning LLMs on recommendation. MSL improves LML by identifying and masking invalid tokens that could lead to fictitious item descriptions during loss computation. This strategy can effectively avoid the interference from erroneous negative signals and ensure well alignment with the recommendation objective supported by theoretical guarantees. During implementation, we identify a potential challenge related to gradient vanishing of MSL. To overcome this, we further introduce the temperature coefficient and propose an Adaptive Temperature Strategy (ATS) that adaptively adjusts the temperature without requiring extensive hyperparameter tuning. Extensive experiments conducted on four public datasets further validate the effectiveness of MSL, achieving an average improvement of 42.24% in NDCG@10. The code is available at https://github.com/WANGBohaO-jpg/MSL.
- Abstract(参考訳): 言語モデル(LLM)は、その理解能力と広範な知識で知られており、レコメンデーションシステム(RS)にますます応用されている。
LLMのメカニズムとRSの要件との根本的なギャップを考えると、研究者は性能を高めるためにレコメンデーション固有のデータを用いた微調整LSMに焦点を合わせてきた。
言語モデリング損失(LML)は、もともと言語生成タスク用に設計されたもので、一般的に採用されている。
しかし LML には2つの限界がある。
1) 勧告の目的とはかなりの相違が見られる。
2) 虚偽の項目記述を負のサンプルとして誤って扱い, 誤解を招く訓練信号を導入した。
これらの制約に対処するため,我々は,細調整 LLM に適した新しい Masked Softmax Loss (MSL) を提案する。
MSLは、損失計算中に架空のアイテム記述につながる可能性のある無効トークンを識別し、マスクすることで、LMLを改善している。
この戦略は、誤った負の信号からの干渉を効果的に回避し、理論的保証によって支持される推奨目標との整合性を確保することができる。
実装中、MSLの勾配消滅に関連する潜在的な課題を特定する。
これを解決するために, 温度係数をさらに導入し, 広範囲なハイパーパラメータチューニングを必要とせず, 温度を適応的に調整する適応温度戦略(ATS)を提案する。
4つの公開データセットで実施された大規模な実験は、MSLの有効性をさらに検証し、NDCG@10で平均42.24%の改善を達成した。
コードはhttps://github.com/WANGBohaO-jpg/MSLで公開されている。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Weighted-Reward Preference Optimization for Implicit Model Fusion [35.57286356489511]
提案手法は,ソースLLMとターゲットLLM間の優先最適化を有効に活用する暗黙融合方式を提案する。
WRPOは語彙アライメントやマトリックス融合の必要性を排除し、様々なLSMに対応するために効率的にスケールすることができる。
MT-Bench、AlpacaEval-2、Arena-Hardベンチマークの実験は、WRPOが既存の知識融合法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2024-12-04T10:15:12Z) - From Yes-Men to Truth-Tellers: Addressing Sycophancy in Large Language Models with Pinpoint Tuning [91.79567270986901]
大規模言語モデル(LLM)は、ユーザプロンプトへの順守を、妥当な応答よりも優先する傾向がある。
近年の研究では、教師付き微調整(SFT)を用いて、梅毒問題を軽減することが提案されている。
そこで本研究では,特定の目的のために関心のあるモジュールを調整した新しいピンポイントチューニング(SPT)を提案する。
論文 参考訳(メタデータ) (2024-09-03T07:01:37Z) - LLM4DSR: Leveraing Large Language Model for Denoising Sequential Recommendation [27.255048063428077]
シーケンスレコメンダは、ユーザの過去のインタラクションシーケンスに基づいてレコメンデーションを生成する。
これらの配列は、しばしばノイズ相互作用によって汚染され、レコメンデーション性能を著しく損なう。
広い言語モデル (LLM) には広い知識と意味論的推論能力が備わっており、この情報ギャップを埋めるための有望な道筋を提供する。
LLMを用いてシーケンシャルなレコメンデーションを識別するLLM4DSRを提案する。
論文 参考訳(メタデータ) (2024-08-15T15:18:46Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - RLSF: Reinforcement Learning via Symbolic Feedback [11.407319705797242]
証明フィードバック(RLSF)による強化学習(Reinforcement Learning)と呼ばれる新しい微調整パラダイムを提案する。
RLSFでは、微調整されたLLMはRLエージェントと見なされ、環境は推論やドメイン知識ツールへのアクセスが可能である。
RLSFに基づくLLMの微調整は、5つの異なるアプリケーションにおいて従来のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T18:49:59Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。