論文の概要: Learning to Reason for Multi-Step Retrieval of Personal Context in Personalized Question Answering
- arxiv url: http://arxiv.org/abs/2602.19317v1
- Date: Sun, 22 Feb 2026 19:43:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.583854
- Title: Learning to Reason for Multi-Step Retrieval of Personal Context in Personalized Question Answering
- Title(参考訳): パーソナライズされた質問応答における個人コンテキストのマルチステップ検索のための推論学習
- Authors: Maryam Amirizaniani, Alireza Salemi, Hamed Zamani,
- Abstract要約: QA(Personalization in Question Answering)は、ユーザーの背景、好み、歴史的文脈に合致した正確で正確な回答を必要とする。
個人化のための個人的コンテキストからの推論と検索を統合した強化学習フレームワークPR2を提案する。
- 参考スコア(独自算出の注目度): 39.08300602619814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalization in Question Answering (QA) requires answers that are both accurate and aligned with users' background, preferences, and historical context. Existing state-of-the-art methods primarily rely on retrieval-augmented generation (RAG) solutions that construct personal context by retrieving relevant items from the user's profile. Existing methods use the user's query directly to retrieve personal documents, and such strategies often lead to surface-level personalization. We propose PR2 (Personalized Retrieval-Augmented Reasoning), a reinforcement learning framework that integrates reasoning and retrieval from personal context for personalization. PR2 learns adaptive retrieval-reasoning policies, determining when to retrieve, what evidence to retrieve from user profiles, and how to incorporate it into intermediate reasoning steps. By optimizing multi-turn reasoning trajectories under a personalized reward function, the framework reinforces reasoning paths that better align with user-specific preferences and contextual signals reflected by the reward model. Extensive experiments on the LaMP-QA benchmark using three LLMs show that PR2 consistently outperforms strong baselines, achieving an average relative improvement of 8.8%-12% in personalized QA.
- Abstract(参考訳): QA(Personalization in Question Answering)は、ユーザーの背景、好み、歴史的文脈に合致した正確で正確な回答を必要とする。
既存の最先端の手法は、主にユーザーのプロファイルから関連項目を検索することで個人コンテキストを構築する検索強化世代(RAG)ソリューションに依存している。
既存の手法では、ユーザのクエリを直接使用して個人文書を検索し、そのような戦略は表面レベルのパーソナライズに繋がることが多い。
個人化のための個人的コンテキストからの推論と検索を統合する強化学習フレームワークPR2(Personalized Retrieval-Augmented Reasoning)を提案する。
PR2は、適応的な検索推論ポリシーを学習し、いつ取得するか、ユーザープロファイルから取得する証拠、中間的推論ステップに組み込む方法について決定する。
このフレームワークは、パーソナライズされた報酬関数の下で多ターン推論軌跡を最適化することにより、ユーザ固有の嗜好や報酬モデルによって反映されるコンテキスト信号に適合した推論経路を強化する。
3つのLLMを用いたLaMP-QAベンチマークの大規模な実験により、PR2は強いベースラインを一貫して上回り、パーソナライズされたQAにおいて平均8.8%-12%の改善を達成した。
関連論文リスト
- Optimizing User Profiles via Contextual Bandits for Retrieval-Augmented LLM Personalization [27.490675380289318]
関連性はユーティリティの信頼性の低いプロキシとして機能する、と私たちは主張する。
Llm pErsonalization のために UseR Profiles をoPtimizeする文脈的帯域幅フレームワーク PURPLE を提案する。
PURPLEは、最も関連性の高いレコードの欲求選択とは対照的に、プロファイル構築をセット生成プロセスとして扱う。
論文 参考訳(メタデータ) (2026-01-17T15:05:36Z) - Personalize Before Retrieve: LLM-based Personalized Query Expansion for User-Centric Retrieval [34.298743064665395]
Personalize Before Retrieve (PBR) は、ユーザ固有の信号を検索前にクエリ拡張に組み込むフレームワークである。
PBRは一貫して強力なベースラインを上回り、PersonaBenchはリトリーバー全体で最大10%の利益を得ている。
論文 参考訳(メタデータ) (2025-10-10T02:24:09Z) - Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It [81.50711040539566]
現在の大規模言語モデル(LLM)開発は、タスク解決と優先順位調整を別の課題として扱う。
静的ベンチマークを対話型パーソナライズタスクに変換する評価手法であるPreFDISCOを紹介する。
我々のフレームワークは、ユーザコンテキストに応じて、同じ質問が異なる推論チェーンを必要とするシナリオを作成します。
論文 参考訳(メタデータ) (2025-09-30T18:55:28Z) - Pathways of Thoughts: Multi-Directional Thinking for Long-form Personalized Question Answering [57.12316804290369]
ユーザ固有の情報ニーズに質問応答システムを適用するためには,パーソナライゼーションが不可欠である。
本稿では,タスク固有の微調整を必要とせず,任意の大規模言語モデル (LLM) に適用可能な推論段階の方法として,思考の経路 (PoT) を提案する。
PoTは競争ベースラインを一貫して上回り、13.1%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2025-09-23T14:44:46Z) - PrLM: Learning Explicit Reasoning for Personalized RAG via Contrastive Reward Optimization [4.624026598342624]
検索したユーザプロファイルを明示的に推論するために,LLMをトレーニングする強化学習フレームワークであるPrLMを提案する。
PrLMは、注釈付き推論パスを必要とせずに、ユーザの応答から効果的に学習する。
3つのパーソナライズされたテキスト生成データセットの実験は、PrLMが既存の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-08-10T13:37:26Z) - A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - From Guessing to Asking: An Approach to Resolving the Persona Knowledge Gap in LLMs during Multi-Turn Conversations [11.958380211411386]
本研究では,ペルソナの知識ギャップ,モデルの内的理解と一貫性とパーソナライズされた会話に必要な知識との相違について紹介する。
本稿では,ペルソナの知識ギャップを動的に検出・解決する新しいフレームワークであるCPER(Conversation Preference Elicitation and Recommendation)を提案する。
CPERは、嗜好抽出のためのコンテキスト理解モジュール、不確実性を計測し、ペルソナアライメントを精製する動的フィードバックモジュール、蓄積されたユーザコンテキストに基づいて応答を適応するペルソナ駆動応答生成モジュールの3つの主要なモジュールで構成されている。
論文 参考訳(メタデータ) (2025-03-16T15:55:29Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。