論文の概要: PrLM: Learning Explicit Reasoning for Personalized RAG via Contrastive Reward Optimization
- arxiv url: http://arxiv.org/abs/2508.07342v1
- Date: Sun, 10 Aug 2025 13:37:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.818929
- Title: PrLM: Learning Explicit Reasoning for Personalized RAG via Contrastive Reward Optimization
- Title(参考訳): PrLM:コントラストリワード最適化による個人化RAGのための明示的推論学習
- Authors: Kepu Zhang, Teng Shi, Weijie Yu, Jun Xu,
- Abstract要約: 検索したユーザプロファイルを明示的に推論するために,LLMをトレーニングする強化学習フレームワークであるPrLMを提案する。
PrLMは、注釈付き推論パスを必要とせずに、ユーザの応答から効果的に学習する。
3つのパーソナライズされたテキスト生成データセットの実験は、PrLMが既存の手法より優れていることを示している。
- 参考スコア(独自算出の注目度): 4.624026598342624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized retrieval-augmented generation (RAG) aims to produce user-tailored responses by incorporating retrieved user profiles alongside the input query. Existing methods primarily focus on improving retrieval and rely on large language models (LLMs) to implicitly integrate the retrieved context with the query. However, such models are often sensitive to retrieval quality and may generate responses that are misaligned with user preferences. To address this limitation, we propose PrLM, a reinforcement learning framework that trains LLMs to explicitly reason over retrieved user profiles. Guided by a contrastively trained personalization reward model, PrLM effectively learns from user responses without requiring annotated reasoning paths. Experiments on three personalized text generation datasets show that PrLM outperforms existing methods and remains robust across varying numbers of retrieved profiles and different retrievers.
- Abstract(参考訳): パーソナライズされた検索強化生成(RAG)は、検索したユーザプロファイルを入力クエリと合わせて組み込むことで、ユーザ調整された応答を生成することを目的としている。
既存の手法は主に検索の改善に重点を置いており、検索したコンテキストをクエリと暗黙的に統合するために大きな言語モデル(LLM)に依存している。
しかし、このようなモデルはしばしば検索品質に敏感であり、ユーザの好みに合わない応答を生成することがある。
この制限に対処するために,LLMに検索したユーザプロファイルを明示的に推論させる強化学習フレームワークであるPrLMを提案する。
PrLMは対照的に訓練されたパーソナライゼーション報酬モデルによってガイドされ、注釈付き推論パスを必要とせず、ユーザの反応から効果的に学習する。
3つのパーソナライズされたテキスト生成データセットの実験では、PrLMは既存のメソッドよりも優れており、検索されたプロファイルと異なるレトリバーのさまざまな数にわたって堅牢である。
関連論文リスト
- PersonalLLM: Tailoring LLMs to Individual Preferences [11.717169516971856]
我々は、特定のユーザに対して最大限のメリットを提供するためにLLMを適用することに焦点を当てた、PersonalLLMという公開ベンチマークを提示する。
我々は、ユーザーが不均一な潜伏傾向を示すことを期待する高品質な回答と組み合わせたオープンエンドプロンプトをキュレートする。
私たちのデータセットと生成された個人性は、パーソナライズアルゴリズムを開発するための革新的なテストベッドを提供します。
論文 参考訳(メタデータ) (2024-09-30T13:55:42Z) - MoRE: A Mixture of Reflectors Framework for Large Language Model-Based Sequential Recommendation [16.10791252542592]
大規模言語モデル(LLM)は、シーケンシャルなレコメンデーションにおいて最先端のアプローチとして登場した。
これらのギャップに対処するために、3つの視点対応のオフライン反射プロセスを導入するMOREを提案する。
MoREのメタリフレクタは自己改善戦略と動的選択機構を採用し、進化するユーザの好みに適応する。
論文 参考訳(メタデータ) (2024-09-10T09:58:55Z) - Few-shot Personalization of LLMs with Mis-aligned Responses [40.0349773257245]
本稿では,大規模言語モデル(LLM)のパーソナライズのための新しいアプローチを提案する。
私たちのキーとなるアイデアは、LSMを用いてプロンプトを段階的に改善することで、各ユーザに対してパーソナライズされたプロンプトのセットを学ぶことです。
即時改善の反復過程において,LLMによる不整合応答の文脈を取り入れた。
論文 参考訳(メタデータ) (2024-06-26T18:29:12Z) - Learning to Retrieve Iteratively for In-Context Learning [56.40100968649039]
イテレーティブ検索は、ポリシー最適化によるイテレーティブな意思決定を可能にする、新しいフレームワークである。
テキスト内学習例を構成するための反復型検索器をインスタンス化し,様々な意味解析タスクに適用する。
ステートエンコーディングのためのパラメータを4M追加するだけで、オフザシェルフの高密度レトリバーをステートフル反復レトリバーに変換する。
論文 参考訳(メタデータ) (2024-06-20T21:07:55Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Query Rewriting for Retrieval-Augmented Large Language Models [139.242907155883]
大規模言語モデル(LLM)は、検索対象のパイプラインで強力なブラックボックスリーダーを動作させる。
この作業では、検索拡張LDMに対する以前の検索テーマ読み込みの代わりに、新しいフレームワークであるRewrite-Retrieve-Readを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。