論文の概要: PrLM: Learning Explicit Reasoning for Personalized RAG via Contrastive Reward Optimization
- arxiv url: http://arxiv.org/abs/2508.07342v1
- Date: Sun, 10 Aug 2025 13:37:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.818929
- Title: PrLM: Learning Explicit Reasoning for Personalized RAG via Contrastive Reward Optimization
- Title(参考訳): PrLM:コントラストリワード最適化による個人化RAGのための明示的推論学習
- Authors: Kepu Zhang, Teng Shi, Weijie Yu, Jun Xu,
- Abstract要約: 検索したユーザプロファイルを明示的に推論するために,LLMをトレーニングする強化学習フレームワークであるPrLMを提案する。
PrLMは、注釈付き推論パスを必要とせずに、ユーザの応答から効果的に学習する。
3つのパーソナライズされたテキスト生成データセットの実験は、PrLMが既存の手法より優れていることを示している。
- 参考スコア(独自算出の注目度): 4.624026598342624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized retrieval-augmented generation (RAG) aims to produce user-tailored responses by incorporating retrieved user profiles alongside the input query. Existing methods primarily focus on improving retrieval and rely on large language models (LLMs) to implicitly integrate the retrieved context with the query. However, such models are often sensitive to retrieval quality and may generate responses that are misaligned with user preferences. To address this limitation, we propose PrLM, a reinforcement learning framework that trains LLMs to explicitly reason over retrieved user profiles. Guided by a contrastively trained personalization reward model, PrLM effectively learns from user responses without requiring annotated reasoning paths. Experiments on three personalized text generation datasets show that PrLM outperforms existing methods and remains robust across varying numbers of retrieved profiles and different retrievers.
- Abstract(参考訳): パーソナライズされた検索強化生成(RAG)は、検索したユーザプロファイルを入力クエリと合わせて組み込むことで、ユーザ調整された応答を生成することを目的としている。
既存の手法は主に検索の改善に重点を置いており、検索したコンテキストをクエリと暗黙的に統合するために大きな言語モデル(LLM)に依存している。
しかし、このようなモデルはしばしば検索品質に敏感であり、ユーザの好みに合わない応答を生成することがある。
この制限に対処するために,LLMに検索したユーザプロファイルを明示的に推論させる強化学習フレームワークであるPrLMを提案する。
PrLMは対照的に訓練されたパーソナライゼーション報酬モデルによってガイドされ、注釈付き推論パスを必要とせず、ユーザの反応から効果的に学習する。
3つのパーソナライズされたテキスト生成データセットの実験では、PrLMは既存のメソッドよりも優れており、検索されたプロファイルと異なるレトリバーのさまざまな数にわたって堅牢である。
関連論文リスト
- Towards Realistic Personalization: Evaluating Long-Horizon Preference Following in Personalized User-LLM Interactions [50.70965714314064]
大規模言語モデル(LLM)は、ユーザが拡張されたインタラクションよりも複雑で多様な好みを共有するパーソナルアシスタントとして、ますます機能している。
この研究は、パーソナライズされたユーザ-LLMインタラクションにおいて、リアルな嗜好フォローを評価するためのベンチマークであるRealPrefを提案する。
論文 参考訳(メタデータ) (2026-03-04T15:42:43Z) - Learning to Reason for Multi-Step Retrieval of Personal Context in Personalized Question Answering [39.08300602619814]
QA(Personalization in Question Answering)は、ユーザーの背景、好み、歴史的文脈に合致した正確で正確な回答を必要とする。
個人化のための個人的コンテキストからの推論と検索を統合した強化学習フレームワークPR2を提案する。
論文 参考訳(メタデータ) (2026-02-22T19:43:43Z) - Optimizing User Profiles via Contextual Bandits for Retrieval-Augmented LLM Personalization [27.490675380289318]
関連性はユーティリティの信頼性の低いプロキシとして機能する、と私たちは主張する。
Llm pErsonalization のために UseR Profiles をoPtimizeする文脈的帯域幅フレームワーク PURPLE を提案する。
PURPLEは、最も関連性の高いレコードの欲求選択とは対照的に、プロファイル構築をセット生成プロセスとして扱う。
論文 参考訳(メタデータ) (2026-01-17T15:05:36Z) - Rethinking On-policy Optimization for Query Augmentation [49.87723664806526]
本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。
そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
論文 参考訳(メタデータ) (2025-10-20T04:16:28Z) - MADREC: A Multi-Aspect Driven LLM Agent for Explainable and Adaptive Recommendation [11.430206422495829]
マルチアスペクト駆動型LLMエージェントMADRecは、レビューからマルチアスペクト情報の教師なし抽出によってユーザとアイテムのプロファイルを構築する自動レコメンデータである。
MADRecはアスペクトカテゴリに基づく要約を通じて構造化プロファイルを生成し、高密度入力を構築するためにRe-Rankingを適用する。
複数の領域にわたる実験により、MADRecは従来のLCMベースのベースラインよりも精度と説明可能性の両方で優れていることが示された。
論文 参考訳(メタデータ) (2025-10-15T10:03:29Z) - FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users [111.56469697145519]
メタ学習問題として報酬モデルを再設計するFew-Shot Preference Optimizationを提案する。
このフレームワークでは、LDMはそのユーザからいくつかのラベル付けされた好みを通じてユーザへの迅速な適応を学び、パーソナライズされた報酬関数を構築する。
公開されているLLMを用いて100万以上の合成パーソナライズされた好みを生成する。
本研究は,映画レビュー,教育背景に基づく教育適応,一般質問応答の3分野を対象に,最大1,500人の総合ユーザを対象に,パーソナライズされたオープンエンド世代に対するFSPOの評価を行った。
論文 参考訳(メタデータ) (2025-02-26T17:08:46Z) - PersonalLLM: Tailoring LLMs to Individual Preferences [11.717169516971856]
我々は、特定のユーザに対して最大限のメリットを提供するためにLLMを適用することに焦点を当てた、PersonalLLMという公開ベンチマークを提示する。
我々は、ユーザーが不均一な潜伏傾向を示すことを期待する高品質な回答と組み合わせたオープンエンドプロンプトをキュレートする。
私たちのデータセットと生成された個人性は、パーソナライズアルゴリズムを開発するための革新的なテストベッドを提供します。
論文 参考訳(メタデータ) (2024-09-30T13:55:42Z) - MoRE: A Mixture of Reflectors Framework for Large Language Model-Based Sequential Recommendation [16.10791252542592]
大規模言語モデル(LLM)は、シーケンシャルなレコメンデーションにおいて最先端のアプローチとして登場した。
これらのギャップに対処するために、3つの視点対応のオフライン反射プロセスを導入するMOREを提案する。
MoREのメタリフレクタは自己改善戦略と動的選択機構を採用し、進化するユーザの好みに適応する。
論文 参考訳(メタデータ) (2024-09-10T09:58:55Z) - Few-shot Personalization of LLMs with Mis-aligned Responses [40.0349773257245]
本稿では,大規模言語モデル(LLM)のパーソナライズのための新しいアプローチを提案する。
私たちのキーとなるアイデアは、LSMを用いてプロンプトを段階的に改善することで、各ユーザに対してパーソナライズされたプロンプトのセットを学ぶことです。
即時改善の反復過程において,LLMによる不整合応答の文脈を取り入れた。
論文 参考訳(メタデータ) (2024-06-26T18:29:12Z) - Learning to Retrieve Iteratively for In-Context Learning [56.40100968649039]
イテレーティブ検索は、ポリシー最適化によるイテレーティブな意思決定を可能にする、新しいフレームワークである。
テキスト内学習例を構成するための反復型検索器をインスタンス化し,様々な意味解析タスクに適用する。
ステートエンコーディングのためのパラメータを4M追加するだけで、オフザシェルフの高密度レトリバーをステートフル反復レトリバーに変換する。
論文 参考訳(メタデータ) (2024-06-20T21:07:55Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Query Rewriting for Retrieval-Augmented Large Language Models [139.242907155883]
大規模言語モデル(LLM)は、検索対象のパイプラインで強力なブラックボックスリーダーを動作させる。
この作業では、検索拡張LDMに対する以前の検索テーマ読み込みの代わりに、新しいフレームワークであるRewrite-Retrieve-Readを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。