論文の概要: T-POP: Test-Time Personalization with Online Preference Feedback
- arxiv url: http://arxiv.org/abs/2509.24696v1
- Date: Mon, 29 Sep 2025 12:28:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.973449
- Title: T-POP: Test-Time Personalization with Online Preference Feedback
- Title(参考訳): T-POP: オンライン優先度フィードバックによるテスト時間パーソナライゼーション
- Authors: Zikun Qu, Min Zhang, Mingze Kong, Xiang Li, Zhiwei Shang, Zhiyong Wang, Yikun Ban, Shuang Qiu, Yao Shu, Zhongxiang Dai,
- Abstract要約: 本稿では、テキスト生成中に収集したオンラインのペアワイズ嗜好フィードバックから学習することで、リアルタイムパーソナライズのための新しいパラダイムを提案する。
T-POPは、デュエルブレイトを活用することにより、ユーザの好みを探索し、学習した知識を利用してパーソナライズされたテキストを生成することで、効率的にバランスをとることができる。
- 参考スコア(独自算出の注目度): 44.84261334557795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalizing large language models (LLMs) to individual user preferences is a critical step beyond generating generically helpful responses. However, current personalization methods are ill-suited for new users, as they typically require either slow, resource-intensive fine-tuning or a substantial amount of pre-existing user data, creating a significant cold-start problem. To address this challenge, we introduce a new paradigm for real-time personalization by learning from online pairwise preference feedback collected during text generation. We propose T-POP (Test-Time Personalization with Online Preference Feedback}), a novel algorithm that synergistically combines test-time alignment with dueling bandits. Without updating the LLM parameters, T-POP steers the decoding process of a frozen LLM by learning a reward function online that captures user preferences. By leveraging dueling bandits, T-POP intelligently queries the user to efficiently balance between exploring their preferences and exploiting the learned knowledge to generate personalized text. Extensive experiments demonstrate that T-POP achieves rapid and data-efficient personalization, significantly outperforming existing baselines and showing consistent improvement with more user interactions.
- Abstract(参考訳): 大きな言語モデル(LLM)を個々のユーザの好みにパーソナライズすることは、汎用的な応答を生成すること以上の重要なステップである。
しかし、現在のパーソナライズ手法は、通常、遅いリソース集約的な微調整か、あるいは既存のユーザーデータのかなりの量を必要とするため、新しいユーザーにとって不適当であり、重大なコールドスタート問題を引き起こす。
この課題に対処するために、テキスト生成中に収集したオンラインのペアワイズ嗜好フィードバックから学習することで、リアルタイムパーソナライズのための新しいパラダイムを導入する。
T-POP(Test-Time Personalization with Online Preference Feedback})を提案する。
LLMパラメータを更新せずに、T-POPは、ユーザの好みをキャプチャする報酬関数をオンラインで学習することで、凍結LDMの復号プロセスを実行する。
T-POPは、デュエルブレイトを活用することで、ユーザの好みを探索し、学習した知識を利用してパーソナライズされたテキストを生成することで、効率的にバランスをとることができる。
大規模な実験により、T-POPは高速でデータ効率の良いパーソナライゼーションを実現し、既存のベースラインを著しく上回り、より多くのユーザインタラクションで一貫した改善を示す。
関連論文リスト
- Temporal User Profiling with LLMs: Balancing Short-Term and Long-Term Preferences for Recommendations [3.719862246745416]
本稿では,短期および長期の嗜好を明示的にモデル化するユーザプロファイリング手法を提案する。
LLM-TUPは、いくつかのベースラインに対して大幅に改善されている。
論文 参考訳(メタデータ) (2025-08-11T20:28:24Z) - Debiasing Online Preference Learning via Preference Feature Preservation [64.55924745257951]
最近の嗜好学習フレームワークは、二対比較とスカラー報酬で人間の嗜好を簡単にする。
これにより、大規模言語モデルの反応は、主に好まれる特徴に偏り、オンラインの嗜好学習ステップのイテレーション中に悪化する可能性がある。
本研究では,人間の嗜好特徴の分布を維持するための嗜好特徴保存法を提案し,オンライン選好学習プロセスを通じてそのようなリッチな信号を利用する。
論文 参考訳(メタデータ) (2025-06-06T13:19:07Z) - Comparison-based Active Preference Learning for Multi-dimensional Personalization [7.349038301460469]
大きな言語モデル(LLM)は目覚ましい成功を収めていますが、それらを人間の好みに合わせることは、依然として重要な課題です。
近年,多次元のパーソナライゼーションが研究されている。これはモデルが明示的な嗜好に合った応答を生成できるようにすることを目的としている。
対話的に収集された比較フィードバックから暗黙的なユーザの嗜好を捉えるために,能動多次元選好学習(AMPLe)を提案する。
論文 参考訳(メタデータ) (2024-11-01T11:49:33Z) - ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - Doing Personal LAPS: LLM-Augmented Dialogue Construction for Personalized Multi-Session Conversational Search [9.243535345193711]
提案手法は,大規模言語モデルを用いて,個人化された対話を生成するために,一人の人間労働者を誘導する。
LAPSは大規模、人書き、マルチセッション、マルチドメインの会話を収集できる。
その結果,抽出された嗜好を用いて明示的に生成した応答は,ユーザの実際の嗜好と一致していることがわかった。
論文 参考訳(メタデータ) (2024-05-06T13:53:03Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Personalized Language Modeling from Personalized Human Feedback [45.16986573937782]
パーソナライズされた大規模言語モデル(LLM)は、個々のユーザの好みに応答するように設計されている。
個人の好みを捉えるために軽量なユーザモデルを利用する効率的なフレームワークであるPersonalized-RLHFを提案する。
P-RLHF を用いて学習したパーソナライズされた LLM は,個々のユーザの好みとより密に一致した応答を生成する。
論文 参考訳(メタデータ) (2024-02-06T04:18:58Z) - Integrating Summarization and Retrieval for Enhanced Personalization via
Large Language Models [11.950478880423733]
パーソナライゼーションは自然言語処理(NLP)システムにおけるユーザエクスペリエンスにおいて重要な要素である。
LLM(Large Language Models)の出現によって、重要な疑問は、これらのモデルを使ってユーザエクスペリエンスをよりパーソナライズする方法である。
LLMが生成するタスク対応ユーザ要約を用いた,新しい要約型パーソナライゼーションを提案する。
論文 参考訳(メタデータ) (2023-10-30T23:40:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。