論文の概要: Reason4Rec: Large Language Models for Recommendation with Deliberative User Preference Alignment
- arxiv url: http://arxiv.org/abs/2502.02061v2
- Date: Mon, 17 Feb 2025 11:22:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 16:13:23.433016
- Title: Reason4Rec: Large Language Models for Recommendation with Deliberative User Preference Alignment
- Title(参考訳): Reason4Rec: デリバティブなユーザ嗜好アライメントによる推奨のための大規模言語モデル
- Authors: Yi Fang, Wenjie Wang, Yang Zhang, Fengbin Zhu, Qifan Wang, Fuli Feng, Xiangnan He,
- Abstract要約: 本稿では,ユーザの嗜好に関する明確な推論を新たなアライメント目標として組み込んだ,新たなDeliberative Recommendationタスクを提案する。
次にReasoningを利用したRecommenderフレームワークを導入する。
- 参考スコア(独自算出の注目度): 69.11529841118671
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent advancements in aligning Large Language Models (LLMs) with recommendation tasks have shown great potential and promising performance overall, these aligned recommendation LLMs still face challenges in complex scenarios. This is primarily due to the current alignment approach focusing on optimizing LLMs to generate user feedback directly, without incorporating deliberation. To overcome this limitation and develop more reliable LLMs for recommendations, we propose a new Deliberative Recommendation task, which incorporates explicit reasoning about user preferences as an additional alignment goal. We then introduce the Reasoning-powered Recommender framework for deliberative user preference alignment, designed to enhance reasoning capabilities by utilizing verbalized user feedback in a step-wise manner to tackle this task. The framework employs collaborative step-wise experts and tailored training strategies for each expert. Experimental results across three real-world datasets demonstrate the rationality of the deliberative task formulation and the superior performance of the proposed framework in improving both prediction accuracy and reasoning quality.
- Abstract(参考訳): 大規模言語モデル(LLM)とレコメンデーションタスクの連携に関する最近の進歩は、大きな可能性と期待できるパフォーマンスを示しているが、これらの整列されたレコメンデーション LLM は、複雑なシナリオにおいて依然として課題に直面している。
これは主に、熟考を取り入れることなく、LCMを最適化してユーザからのフィードバックを直接生成することに焦点を当てた現在のアライメントアプローチが原因である。
この制限を克服し、リコメンデーションのためのより信頼性の高いLCMを開発するために、ユーザー嗜好に関する明確な推論を追加のアライメントゴールとして組み込んだ新しいDeliberative Recommendationタスクを提案する。
次に,この課題に対処するために,言語化されたユーザフィードバックを活用することによって推論能力を高めるために,Reasoningを利用したRecommenderフレームワークを導入する。
このフレームワークには、各専門家のための協調的なステップワイドの専門家と調整されたトレーニング戦略が採用されている。
実世界の3つのデータセットにまたがる実験結果は,予測精度と推論品質の両方を改善する上で,議論的タスク定式化の合理性と,提案フレームワークの優れた性能を示す。
関連論文リスト
- Large Language Model Empowered Recommendation Meets All-domain Continual Pre-Training [60.38082979765664]
CPRecは、レコメンデーションのための全ドメイン連続事前トレーニングフレームワークである。
LLMを連続的な事前学習パラダイムを通じて、普遍的なユーザ行動と整合させる。
2つの異なるプラットフォームから5つの実世界のデータセットを実験する。
論文 参考訳(メタデータ) (2025-04-11T20:01:25Z) - Self-Improvement Towards Pareto Optimality: Mitigating Preference Conflicts in Multi-Objective Alignment [74.25832963097658]
マルチオブジェクトアライメント(MOA)は、応答を複数の人間の嗜好目標に合わせることを目的としている。
DPOをベースとしたMOAアプローチは、データに広範囲にわたる優先的対立に悩まされている。
論文 参考訳(メタデータ) (2025-02-20T08:27:00Z) - Semantic Convergence: Harmonizing Recommender Systems via Two-Stage Alignment and Behavioral Semantic Tokenization [10.47505806629852]
大規模言語モデル(LLM)は、歴史的行動からユーザの深い関心を識別する能力を持っている。
従来のレコメンデーションモデルとLLMの長所を調和的に融合する新しいフレームワークを提案する。
我々は、協調的な信号と自然言語意味論の微妙さを整合させることを目的とした、教師付き学習タスクのシリーズを設計する。
論文 参考訳(メタデータ) (2024-12-18T12:07:58Z) - Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models [54.381650481255235]
我々は,Prompt Optimization (O) を用いた動的リワードによる自己アライメントのための新しいチューニング不要アプローチを提案する。
提案手法は,LLMを反復的に自己改善し,最適アライメント命令を作成可能な検索ベース最適化フレームワークを活用する。
近年の8つのLCMのオープンおよびクローズドソースに関する実証評価により,DRPOはアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-11-13T16:15:38Z) - RosePO: Aligning LLM-based Recommenders with Human Values [38.029251417802044]
我々は、パーソナライズされた選好最適化(RosePO)を円滑にするための一般的なフレームワークを提案する。
RosePOは、トレーニング後の段階において、カスタマイズされた人的価値との整合性が向上する。
実世界の3つのデータセットの評価は,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-10-16T12:54:34Z) - RLRF4Rec: Reinforcement Learning from Recsys Feedback for Enhanced Recommendation Reranking [33.54698201942643]
大規模言語モデル(LLM)は、様々な領域で顕著なパフォーマンスを示している。
本稿では,Reinforcement Learning from Recsys Feedback for Enhanced Recommendation Re rankを組み込んだ新しいフレームワークであるRLRF4Recを紹介する。
論文 参考訳(メタデータ) (2024-10-08T11:42:37Z) - DaRec: A Disentangled Alignment Framework for Large Language Model and Recommender System [83.34921966305804]
大規模言語モデル (LLM) はレコメンデーションシステムにおいて顕著な性能を示した。
LLMと協調モデルのための新しいプラグ・アンド・プレイアライメントフレームワークを提案する。
我々の手法は既存の最先端アルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2024-08-15T15:56:23Z) - LANE: Logic Alignment of Non-tuning Large Language Models and Online Recommendation Systems for Explainable Reason Generation [15.972926854420619]
大きな言語モデル(LLM)を活用することで、包括的なレコメンデーションロジック生成の新しい機会を提供する。
レコメンデーションタスクのための微調整LDMモデルは、計算コストと既存のシステムとのアライメントの問題を引き起こす。
本研究は,LLMとオンラインレコメンデーションシステムとの連携を,LLMのチューニングを伴わない効果的戦略LANEを提案する。
論文 参考訳(メタデータ) (2024-07-03T06:20:31Z) - Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments [41.25558612970942]
大規模言語モデル (LLMs) が優先バイアスを示し, 設計に敏感であることを示す。
この現象に触発された自動ゼロショット評価指向のプロンプト最適化フレームワークZEPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T09:48:53Z) - Large Language Models are Learnable Planners for Long-Term Recommendation [59.167795967630305]
即時利益と長期利益の両方の計画が、勧告においてますます重要になる。
既存手法では,長期的推薦に対する累積報酬を最大化することにより,計画能力の学習に強化学習を適用している。
本稿では,長期的推薦のために,大規模言語モデルのスパースデータよりも優れた計画能力を活用することを提案する。
論文 参考訳(メタデータ) (2024-02-29T13:49:56Z) - Empowering Few-Shot Recommender Systems with Large Language Models --
Enhanced Representations [0.0]
大規模言語モデル(LLM)は、明示的なフィードバックベースのレコメンデータシステムで遭遇する少数のシナリオに対処するための、新たな洞察を提供する。
我々の研究は、LLMがレコメンデーターシステムに関わっていることの多面的側面を深く掘り下げるために、研究者に刺激を与えることができる。
論文 参考訳(メタデータ) (2023-12-21T03:50:09Z) - Choosing the Best of Both Worlds: Diverse and Novel Recommendations
through Multi-Objective Reinforcement Learning [68.45370492516531]
本稿では,Recommender Systems (RS) 設定のための拡張多目的強化学習(SMORL)を紹介する。
SMORLエージェントは、標準レコメンデーションモデルを拡張し、RLレイヤーを追加し、3つの主要な目的(正確性、多様性、新しいレコメンデーション)を同時に満たすように強制する。
実世界の2つのデータセットに対する実験結果から,集約的多様性の顕著な増加,精度の適度な向上,レコメンデーションの反復性の低下,および相補的目的としての多様性と新規性の強化の重要性が示された。
論文 参考訳(メタデータ) (2021-10-28T13:22:45Z) - Reward Constrained Interactive Recommendation with Natural Language
Feedback [158.8095688415973]
制約強化強化学習(RL)フレームワークを提案する。
具体的には,ユーザの過去の嗜好に反するレコメンデーションを検出するために,識別器を利用する。
提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。
論文 参考訳(メタデータ) (2020-05-04T16:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。