Fugu-MT 論文翻訳(概要): Large Language Models for Recommendation with Deliberative User Preference Alignment

論文の概要: Large Language Models for Recommendation with Deliberative User Preference Alignment

arxiv url: http://arxiv.org/abs/2502.02061v1
Date: Tue, 04 Feb 2025 07:17:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:55.954283
Title: Large Language Models for Recommendation with Deliberative User Preference Alignment
Title（参考訳）: 熟考的ユーザ嗜好アライメントを用いた推薦のための大規模言語モデル
Authors: Yi Fang, Wenjie Wang, Yang Zhang, Fengbin Zhu, Qifan Wang, Fuli Feng, Xiangnan He,
Abstract要約: 本稿では,ユーザの嗜好に関する明確な推論を新たなアライメント目標として組み込んだ,新たなDeliberative Recommendationタスクを提案する。次に,言語化されたユーザフィードバックを段階的に活用して推論能力を高めるために設計された,Deliberative User Preference Alignmentフレームワークを紹介する。
参考スコア（独自算出の注目度）: 69.11529841118671
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While recent advancements in aligning Large Language Models (LLMs) with recommendation tasks have shown great potential and promising performance overall, these aligned recommendation LLMs still face challenges in complex scenarios. This is primarily due to the current alignment approach focusing on optimizing LLMs to generate user feedback directly, without incorporating deliberation. To overcome this limitation and develop more reliable LLMs for recommendations, we propose a new Deliberative Recommendation task, which incorporates explicit reasoning about user preferences as an additional alignment goal. We then introduce the Deliberative User Preference Alignment framework, designed to enhance reasoning capabilities by utilizing verbalized user feedback in a step-wise manner to tackle this task. The framework employs collaborative step-wise experts and tailored training strategies for each expert. Experimental results across three real-world datasets demonstrate the rationality of the deliberative task formulation and the superior performance of the proposed framework in improving both prediction accuracy and reasoning quality.
Abstract（参考訳）: 大規模言語モデル(LLM)とレコメンデーションタスクの連携に関する最近の進歩は、大きな可能性と期待できるパフォーマンスを示しているが、これらの整列されたレコメンデーション LLM は、複雑なシナリオにおいて依然として課題に直面している。これは主に、熟考を取り入れることなく、LCMを最適化してユーザからのフィードバックを直接生成することに焦点を当てた現在のアライメントアプローチが原因である。この制限を克服し、リコメンデーションのためのより信頼性の高いLCMを開発するために、ユーザー嗜好に関する明確な推論を追加のアライメントゴールとして組み込んだ新しいDeliberative Recommendationタスクを提案する。次に、言語化されたユーザフィードバックを段階的に活用して推論能力を高めるために設計された、Deliberative User Preference Alignmentフレームワークを紹介します。このフレームワークには、各専門家のための協調的なステップワイドの専門家と調整されたトレーニング戦略が採用されている。実世界の3つのデータセットにまたがる実験結果は,予測精度と推論品質の両方を改善する上で,議論的タスク定式化の合理性と,提案フレームワークの優れた性能を示す。

関連論文リスト

Reasoning to Rank: An End-to-End Solution for Exploiting Large Language Models for Recommendation [44.51582748617213]
ランクへの推論(Reasoning to Rank)は、言語モデルにおけるステップバイステップ推論の学習に推奨ユーティリティ最適化を内部化するエンドツーエンドのトレーニングフレームワークである。本フレームワークは,言語モデルのエンド・ツー・エンド・トレーニングに強化学習を導入し,ユーザ・イテムレベルで推論を行う。
論文参考訳（メタデータ） (2026-02-13T02:22:48Z)
SRLF: An Agent-Driven Set-Wise Reflective Learning Framework for Sequential Recommendation [16.741106736240603]
我々のフレームワークは,LLMの強力なコンテキスト内学習機能を利用するクローズドループ "アセス・バリケート・リフレクト" サイクルを運用する。提案手法では,ユーザの行動に不可欠な複雑なパターンを抽出し,シーケンシャルなレコメンデーションタスクに非常に適している。
論文参考訳（メタデータ） (2025-11-14T14:50:33Z)
OneRec-Think: In-Text Reasoning for Generative Recommendation [55.53292983432484]
OneRec-Thinkは、対話、推論、パーソナライズされたレコメンデーションをシームレスに統合する統合フレームワークである。提案した"Think-Ahead"アーキテクチャは,クアイショーの産業展開を効果的に実現し,app Stay Timeの0.159%のアップを実現している。
論文参考訳（メタデータ） (2025-10-13T17:20:13Z)
CARE: Contextual Adaptation of Recommenders for LLM-based Conversational Recommendation [66.51329063956538]
CARE(Contextual Adaptation of Recommenders)フレームワークを紹介します。 CAREはCRSタスクのために大きな言語モデルをカスタマイズし、それらを外部レコメンデーションシステムでシナジする。本研究では,外部レコメンデータシステムとエンティティレベルの情報を統合することで,CRSのレコメンデーション精度を大幅に向上させることを示す。
論文参考訳（メタデータ） (2025-08-19T14:53:30Z)
Towards Comprehensible Recommendation with Large Language Model Fine-tuning [41.218487308635126]
本稿では,コラボレーティブ・パースペクティブ・フレームワーク(CURec)によるレコメンデーションシステムのための新しいコンテンツ理解手法を提案する。 Curecは、より包括的なレコメンデーションのために、協調的なコンテンツ機能を生成する。公開ベンチマークの実験では、既存の方法よりもCURecの方が優れていることが示されている。
論文参考訳（メタデータ） (2025-08-11T03:55:31Z)
Thought-Augmented Planning for LLM-Powered Interactive Recommender Agent [56.61028117645315]
本稿では,蒸留した思考パターンを通じて複雑なユーザ意図に対処する,思考増強型対話型推薦エージェントシステム(TAIRA)を提案する。具体的には、ユーザニーズを分解し、サブタスクを計画することでレコメンデーションタスクを編成するマネージャエージェントを備えたLLM方式のマルチエージェントシステムとして設計されている。複数のデータセットにまたがる包括的な実験により、IRAは既存の手法に比べて大幅に性能が向上した。
論文参考訳（メタデータ） (2025-06-30T03:15:50Z)
Expectation Confirmation Preference Optimization for Multi-Turn Conversational Recommendation Agent [24.134616865308985]
本稿では,新しいマルチターン優先最適化パラダイムECPOを提案する。我々は,ECPOがCRAの相互作用能力を大幅に向上させ,既存のMTPO法よりも効率と有効性を両立させることを示す。
論文参考訳（メタデータ） (2025-06-17T08:29:04Z)
What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context [56.590259941275434]
RecPOは、シーケンシャルなレコメンデーションのための優先順位最適化フレームワークである。これは、推定された嗜好階層と時間信号に基づいて適応的な報酬マージンを利用する。タイムリーな満足感、コヒーレントな嗜好の維持、変化する状況下での識別の行使など、人間の意思決定の重要な特徴を反映している。
論文参考訳（メタデータ） (2025-06-02T21:09:29Z)
$\ ext{R}^2\ ext{ec}$: Towards Large Recommender Models with Reasoning [50.291998724376654]
我々は,本質的な推論機能を備えた統合された大規模レコメンデータモデルであるnameを提案する。 RecPOは、単一のポリシー更新で推論とレコメンデーションの両方の機能を同時に最適化する、対応する強化学習フレームワークである。さまざまなベースラインを持つ3つのデータセットの実験では、Hit@5で68.67%、NDCG@20で45.21%の相対的な改善が見られた。
論文参考訳（メタデータ） (2025-05-22T17:55:43Z)
Rethinking LLM-Based Recommendations: A Personalized Query-Driven Parallel Integration [22.650609670923732]
本稿では,大規模言語モデルを候補選択から切り離す並列レコメンデーションフレームワークを提案する。我々のフレームワークはLLMとレコメンデーションモデルを並列に結合し、各コンポーネントが独立してその強みを活用できるようにする。
論文参考訳（メタデータ） (2025-04-16T09:17:45Z)
Large Language Model Empowered Recommendation Meets All-domain Continual Pre-Training [60.38082979765664]
CPRecは、レコメンデーションのための全ドメイン連続事前トレーニングフレームワークである。 LLMを連続的な事前学習パラダイムを通じて、普遍的なユーザ行動と整合させる。 2つの異なるプラットフォームから5つの実世界のデータセットを実験する。
論文参考訳（メタデータ） (2025-04-11T20:01:25Z)
Self-Improvement Towards Pareto Optimality: Mitigating Preference Conflicts in Multi-Objective Alignment [74.25832963097658]
マルチオブジェクトアライメント(MOA)は、応答を複数の人間の嗜好目標に合わせることを目的としている。 DPOをベースとしたMOAアプローチは、データに広範囲にわたる優先的対立に悩まされている。
論文参考訳（メタデータ） (2025-02-20T08:27:00Z)
Semantic Convergence: Harmonizing Recommender Systems via Two-Stage Alignment and Behavioral Semantic Tokenization [10.47505806629852]
大規模言語モデル(LLM)は、歴史的行動からユーザの深い関心を識別する能力を持っている。従来のレコメンデーションモデルとLLMの長所を調和的に融合する新しいフレームワークを提案する。我々は、協調的な信号と自然言語意味論の微妙さを整合させることを目的とした、教師付き学習タスクのシリーズを設計する。
論文参考訳（メタデータ） (2024-12-18T12:07:58Z)
Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models [54.381650481255235]
我々は,Prompt Optimization (O) を用いた動的リワードによる自己アライメントのための新しいチューニング不要アプローチを提案する。提案手法は,LLMを反復的に自己改善し,最適アライメント命令を作成可能な検索ベース最適化フレームワークを活用する。近年の8つのLCMのオープンおよびクローズドソースに関する実証評価により,DRPOはアライメント性能を著しく向上することが示された。
論文参考訳（メタデータ） (2024-11-13T16:15:38Z)
RosePO: Aligning LLM-based Recommenders with Human Values [38.029251417802044]
我々は、パーソナライズされた選好最適化(RosePO)を円滑にするための一般的なフレームワークを提案する。 RosePOは、トレーニング後の段階において、カスタマイズされた人的価値との整合性が向上する。実世界の3つのデータセットの評価は,本手法の有効性を示す。
論文参考訳（メタデータ） (2024-10-16T12:54:34Z)
RLRF4Rec: Reinforcement Learning from Recsys Feedback for Enhanced Recommendation Reranking [33.54698201942643]
大規模言語モデル(LLM)は、様々な領域で顕著なパフォーマンスを示している。本稿では,Reinforcement Learning from Recsys Feedback for Enhanced Recommendation Re rankを組み込んだ新しいフレームワークであるRLRF4Recを紹介する。
論文参考訳（メタデータ） (2024-10-08T11:42:37Z)
DaRec: A Disentangled Alignment Framework for Large Language Model and Recommender System [83.34921966305804]
大規模言語モデル (LLM) はレコメンデーションシステムにおいて顕著な性能を示した。 LLMと協調モデルのための新しいプラグ・アンド・プレイアライメントフレームワークを提案する。我々の手法は既存の最先端アルゴリズムよりも優れている。
論文参考訳（メタデータ） (2024-08-15T15:56:23Z)
LANE: Logic Alignment of Non-tuning Large Language Models and Online Recommendation Systems for Explainable Reason Generation [15.972926854420619]
大きな言語モデル(LLM)を活用することで、包括的なレコメンデーションロジック生成の新しい機会を提供する。レコメンデーションタスクのための微調整LDMモデルは、計算コストと既存のシステムとのアライメントの問題を引き起こす。本研究は,LLMとオンラインレコメンデーションシステムとの連携を,LLMのチューニングを伴わない効果的戦略LANEを提案する。
論文参考訳（メタデータ） (2024-07-03T06:20:31Z)
Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments [41.25558612970942]
大規模言語モデル (LLMs) が優先バイアスを示し, 設計に敏感であることを示す。この現象に触発された自動ゼロショット評価指向のプロンプト最適化フレームワークZEPOを提案する。
論文参考訳（メタデータ） (2024-06-17T09:48:53Z)
Large Language Models are Learnable Planners for Long-Term Recommendation [59.167795967630305]
即時利益と長期利益の両方の計画が、勧告においてますます重要になる。既存手法では,長期的推薦に対する累積報酬を最大化することにより,計画能力の学習に強化学習を適用している。本稿では,長期的推薦のために,大規模言語モデルのスパースデータよりも優れた計画能力を活用することを提案する。
論文参考訳（メタデータ） (2024-02-29T13:49:56Z)
Empowering Few-Shot Recommender Systems with Large Language Models -- Enhanced Representations [0.0]
大規模言語モデル(LLM)は、明示的なフィードバックベースのレコメンデータシステムで遭遇する少数のシナリオに対処するための、新たな洞察を提供する。我々の研究は、LLMがレコメンデーターシステムに関わっていることの多面的側面を深く掘り下げるために、研究者に刺激を与えることができる。
論文参考訳（メタデータ） (2023-12-21T03:50:09Z)
Choosing the Best of Both Worlds: Diverse and Novel Recommendations through Multi-Objective Reinforcement Learning [68.45370492516531]
本稿では,Recommender Systems (RS) 設定のための拡張多目的強化学習(SMORL)を紹介する。 SMORLエージェントは、標準レコメンデーションモデルを拡張し、RLレイヤーを追加し、3つの主要な目的(正確性、多様性、新しいレコメンデーション)を同時に満たすように強制する。実世界の2つのデータセットに対する実験結果から,集約的多様性の顕著な増加,精度の適度な向上,レコメンデーションの反復性の低下,および相補的目的としての多様性と新規性の強化の重要性が示された。
論文参考訳（メタデータ） (2021-10-28T13:22:45Z)
Reward Constrained Interactive Recommendation with Natural Language Feedback [158.8095688415973]
制約強化強化学習(RL)フレームワークを提案する。具体的には,ユーザの過去の嗜好に反するレコメンデーションを検出するために,識別器を利用する。提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。
論文参考訳（メタデータ） (2020-05-04T16:23:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。