論文の概要: Optimizing User Profiles via Contextual Bandits for Retrieval-Augmented LLM Personalization
- arxiv url: http://arxiv.org/abs/2601.12078v1
- Date: Sat, 17 Jan 2026 15:05:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.451274
- Title: Optimizing User Profiles via Contextual Bandits for Retrieval-Augmented LLM Personalization
- Title(参考訳): 検索型LLMパーソナライズのためのコンテキスト帯域によるユーザプロファイルの最適化
- Authors: Linfeng Du, Ye Yuan, Zichen Zhao, Fuyuan Lyu, Emiliano Penaloza, Xiuying Chen, Zipeng Sun, Jikun Kang, Laurent Charlin, Xue Liu, Haolun Wu,
- Abstract要約: 関連性はユーティリティの信頼性の低いプロキシとして機能する、と私たちは主張する。
Llm pErsonalization のために UseR Profiles をoPtimizeする文脈的帯域幅フレームワーク PURPLE を提案する。
PURPLEは、最も関連性の高いレコードの欲求選択とは対照的に、プロファイル構築をセット生成プロセスとして扱う。
- 参考スコア(独自算出の注目度): 27.490675380289318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) excel at general-purpose tasks, yet adapting their responses to individual users remains challenging. Retrieval augmentation provides a lightweight alternative to fine-tuning by conditioning LLMs on user history records, and existing approaches typically select these records based on semantic relevance. We argue that relevance serves as an unreliable proxy for utility: a record may be semantically similar to a query yet fail to improve generation quality or even degrade it due to redundancy or conflicting information. To bridge this gap, we propose PURPLE, a contextual bandit framework that oPtimizes UseR Profiles for Llm pErsonalization. In contrast to a greedy selection of the most relevant records, PURPLE treats profile construction as a set generation process and utilizes a Plackett-Luce ranking model to capture complex inter-record dependencies. By training with dense feedback provided by the likelihood of the reference response, our method aligns retrieval directly with generation quality. Extensive experiments on nine personalization tasks demonstrate that PURPLE consistently outperforms strong heuristic and retrieval-augmented baselines in both effectiveness and efficiency, establishing a principled and scalable solution for optimizing user profiles.
- Abstract(参考訳): 大きな言語モデル(LLM)は汎用的なタスクでは優れていますが、個々のユーザに対する対応は難しいままです。
Retrieval augmentationは、ユーザ履歴レコードにLLMを条件付けすることで、微調整の軽量な代替手段を提供する。
レコードは、クエリとセマンティックに類似しているが、生成品質を改善したり、冗長性や矛盾する情報のために分解することができない。
このギャップを埋めるために、Llm pErsonalizationのためにUseR ProfilesをoPtimizeする文脈的帯域幅フレームワークであるPURPLEを提案する。
最も関係の深いレコードの選択とは対照的に、PURPLEはプロファイル構築をセット生成プロセスとして扱い、複雑なレコード間の依存関係をキャプチャするためにPlackett-Luceランキングモデルを使用する。
参照応答の可能性から得られる濃厚なフィードバックをトレーニングすることにより,検索を生成品質と直接一致させる。
9つのパーソナライズタスクに関する大規模な実験により、PURPLEは、有効性と効率の両方において、強いヒューリスティックおよび検索強化ベースラインを一貫して上回り、ユーザプロファイルを最適化するための原則的でスケーラブルなソリューションを確立している。
関連論文リスト
- Rethinking On-policy Optimization for Query Augmentation [49.87723664806526]
本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。
そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
論文 参考訳(メタデータ) (2025-10-20T04:16:28Z) - PrLM: Learning Explicit Reasoning for Personalized RAG via Contrastive Reward Optimization [4.624026598342624]
検索したユーザプロファイルを明示的に推論するために,LLMをトレーニングする強化学習フレームワークであるPrLMを提案する。
PrLMは、注釈付き推論パスを必要とせずに、ユーザの応答から効果的に学習する。
3つのパーソナライズされたテキスト生成データセットの実験は、PrLMが既存の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-08-10T13:37:26Z) - Distilling a Small Utility-Based Passage Selector to Enhance Retrieval-Augmented Generation [110.610512800947]
Retrieval-augmented Generation (RAG)は、取得した情報を組み込むことで、大規模言語モデル(LLM)を強化する。
RAGでは、重要度は実用性に移行し、正確な回答を生成するためのパスの有用性を考慮している。
提案手法は、ランク付けよりもユーティリティベースの選択に重点を置いており、固定しきい値を必要とせずに、特定のクエリに合わせた動的通過選択を可能にする。
本実験は, 実用性に基づく選択により, RAGの柔軟性とコスト効率が向上し, 計算コストが大幅に低減され, 応答品質が向上することを示した。
論文 参考訳(メタデータ) (2025-07-25T09:32:29Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - PersonalLLM: Tailoring LLMs to Individual Preferences [11.717169516971856]
我々は、特定のユーザに対して最大限のメリットを提供するためにLLMを適用することに焦点を当てた、PersonalLLMという公開ベンチマークを提示する。
我々は、ユーザーが不均一な潜伏傾向を示すことを期待する高品質な回答と組み合わせたオープンエンドプロンプトをキュレートする。
私たちのデータセットと生成された個人性は、パーソナライズアルゴリズムを開発するための革新的なテストベッドを提供します。
論文 参考訳(メタデータ) (2024-09-30T13:55:42Z) - Efficient and Responsible Adaptation of Large Language Models for Robust Top-k Recommendations [11.004673022505566]
何百万というユーザの長いクエリは、大規模言語モデルのパフォーマンスを低下させ、推奨することができる。
本稿では,大規模言語モデルと従来のレコメンデーションシステムの両方の機能を利用するハイブリッドタスク割り当てフレームワークを提案する。
実世界の3つのデータセットによる結果から,弱い利用者の減少と,サブ人口に対するRSのロバスト性の向上が示唆された。
論文 参考訳(メタデータ) (2024-05-01T19:11:47Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。