論文の概要: Can Large Language Models Understand Preferences in Personalized Recommendation?
- arxiv url: http://arxiv.org/abs/2501.13391v1
- Date: Thu, 23 Jan 2025 05:24:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:58:31.755828
- Title: Can Large Language Models Understand Preferences in Personalized Recommendation?
- Title(参考訳): 大規模言語モデルはパーソナライズされたレコメンデーションの選好を理解できるか?
- Authors: Zhaoxuan Tan, Zinan Zeng, Qingkai Zeng, Zhenyu Wu, Zheyuan Liu, Fengran Mo, Meng Jiang,
- Abstract要約: PerRecBenchを導入し、ユーザ評価バイアスとアイテムの品質から評価を分解する。
評価予測に長けているLCMベースのレコメンデーション手法では,ユーザの評価バイアスや項目品質を排除した場合,ユーザの好ましくない項目や好ましくない項目を識別できないことがわかった。
その結果、ポイントワイドランキングよりもペアワイズとリストワイズランキングの方が優れていること、PerRecBenchの従来の回帰指標との相関が低いこと、ユーザプロファイルの重要性、事前学習データ分布の役割が明らかになった。
- 参考スコア(独自算出の注目度): 32.2250928311146
- License:
- Abstract: Large Language Models (LLMs) excel in various tasks, including personalized recommendations. Existing evaluation methods often focus on rating prediction, relying on regression errors between actual and predicted ratings. However, user rating bias and item quality, two influential factors behind rating scores, can obscure personal preferences in user-item pair data. To address this, we introduce PerRecBench, disassociating the evaluation from these two factors and assessing recommendation techniques on capturing the personal preferences in a grouped ranking manner. We find that the LLM-based recommendation techniques that are generally good at rating prediction fail to identify users' favored and disfavored items when the user rating bias and item quality are eliminated by grouping users. With PerRecBench and 19 LLMs, we find that while larger models generally outperform smaller ones, they still struggle with personalized recommendation. Our findings reveal the superiority of pairwise and listwise ranking approaches over pointwise ranking, PerRecBench's low correlation with traditional regression metrics, the importance of user profiles, and the role of pretraining data distributions. We further explore three supervised fine-tuning strategies, finding that merging weights from single-format training is promising but improving LLMs' understanding of user preferences remains an open research problem. Code and data are available at https://github.com/TamSiuhin/PerRecBench
- Abstract(参考訳): 大きな言語モデル(LLM)は、パーソナライズされたレコメンデーションなど、さまざまなタスクに優れています。
既存の評価手法は、しばしば、実際の評価と予測された評価の間の回帰誤差に依存する評価予測に焦点を当てる。
しかし、評価スコアに影響を及ぼす2つの要因である、ユーザ評価バイアスとアイテム品質は、ユーザとイテムのペアデータの個人的嗜好を曖昧にする可能性がある。
これを解決するために、PerRecBenchを導入し、これらの2つの要因から評価を分解し、グループ化されたランキング方式で個人の好みを捉えるための推奨手法を評価する。
評価予測に長けているLCMベースの推薦手法では,ユーザ評価バイアスや項目品質をグループ化することで,ユーザの好意や好ましくない項目を識別できないことがわかった。
PerRecBenchと19のLLMでは、より大きなモデルは一般的に小さなモデルよりも優れていますが、パーソナライズされたレコメンデーションに苦戦しています。
その結果、ポイントワイドランキングよりもペアワイズとリストワイズランキングの方が優れていること、PerRecBenchの従来の回帰指標との相関が低いこと、ユーザプロファイルの重要性、事前学習データ分布の役割が明らかになった。
我々はさらに3つの教師付き微調整戦略を探求し、シングルフォーマットトレーニングによる重みの融合が有望であるが、LLMのユーザ嗜好に対する理解の向上は依然としてオープンな研究課題であることを示した。
コードとデータはhttps://github.com/TamSiuhin/PerRecBenchで公開されている。
関連論文リスト
- Preference Diffusion for Recommendation [50.8692409346126]
DMベースのレコメンデータに適した最適化対象であるPreferDiffを提案する。
PreferDiffは、BPRをログライクなランキング目標に変換することで、ユーザの好みをよりよく把握する。
これはDMベースのレコメンデーション向けに特別に設計された、パーソナライズされたランキングの損失である。
論文 参考訳(メタデータ) (2024-10-17T01:02:04Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - Peering Through Preferences: Unraveling Feedback Acquisition for
Aligning Large Language Models [32.843361525236965]
スパースフィードバックが大規模言語モデルのアライメントと評価に与える影響を解析する。
評価やランク付けの好みは、人間とAIのアノテータの双方で60%と大きく異なっています。
本研究は,言語モデルの現実的有用性を評価する手法において,重要なギャップを浮き彫りにした。
論文 参考訳(メタデータ) (2023-08-30T07:35:32Z) - Rethinking Missing Data: Aleatoric Uncertainty-Aware Recommendation [59.500347564280204]
本稿では, Aleatoric Uncertainty-aware Recommendation (AUR) フレームワークを提案する。
AURは、新しい不確実性推定器と通常のレコメンデータモデルで構成されている。
誤ラベルの可能性がペアの可能性を反映しているため、AURは不確実性に応じてレコメンデーションを行う。
論文 参考訳(メタデータ) (2022-09-22T04:32:51Z) - Recommendation Systems with Distribution-Free Reliability Guarantees [83.80644194980042]
我々は、主に良いアイテムを含むことを厳格に保証されたアイテムのセットを返す方法を示す。
本手法は, 擬似発見率の厳密な有限サンプル制御によるランキングモデルを提供する。
我々はYahoo!のランキングとMSMarcoデータセットの学習方法を評価する。
論文 参考訳(メタデータ) (2022-07-04T17:49:25Z) - Cross Pairwise Ranking for Unbiased Item Recommendation [57.71258289870123]
我々はCPR(Cross Pairwise Ranking)という新しい学習パラダイムを開発する。
CPRは、露出メカニズムを知らずに不偏の推奨を達成する。
理論的には、この方法が学習に対するユーザ/イテムの適合性の影響を相殺することを証明する。
論文 参考訳(メタデータ) (2022-04-26T09:20:27Z) - Unbiased Pairwise Learning to Rank in Recommender Systems [4.058828240864671]
アルゴリズムをランク付けする偏見のない学習は、候補をアピールし、既に単一の分類ラベルを持つ多くのアプリケーションに適用されている。
本稿では,この課題に対処するための新しい非バイアス付きLTRアルゴリズムを提案する。
パブリックベンチマークデータセットと内部ライブトラフィックを用いた実験結果から,分類ラベルと連続ラベルのいずれにおいても提案手法の優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-25T06:04:59Z) - Correcting the User Feedback-Loop Bias for Recommendation Systems [34.44834423714441]
本稿では,レコメンデーションシステムにおいて,ユーザのフィードバックループバイアスを修正するための系統的かつ動的手法を提案する。
本手法は,各ユーザの動的評価履歴の埋め込みを学習するためのディープラーニングコンポーネントを含む。
実世界のレコメンデーションシステムにおけるユーザフィードバックループバイアスの存在を実証的に検証した。
論文 参考訳(メタデータ) (2021-09-13T15:02:55Z) - Set2setRank: Collaborative Set to Set Ranking for Implicit Feedback
based Recommendation [59.183016033308014]
本稿では,暗黙的フィードバックの特徴を探究し,推奨するSet2setRankフレームワークを提案する。
提案するフレームワークはモデルに依存しず,ほとんどの推奨手法に容易に適用できる。
論文 参考訳(メタデータ) (2021-05-16T08:06:22Z) - Dynamic-K Recommendation with Personalized Decision Boundary [41.70842736417849]
ランキングと分類の目的を併せ持つ共同学習問題として動的k推薦タスクを開発した。
我々は、BPRMFとHRMの2つの最先端ランキングベースのレコメンデーション手法を対応する動的Kバージョンに拡張する。
2つのデータセットに対する実験結果から,動的Kモデルの方が従来の固定N推奨手法よりも有効であることが示された。
論文 参考訳(メタデータ) (2020-12-25T13:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。