論文の概要: Cold-Start Personalization via Training-Free Priors from Structured World Models
- arxiv url: http://arxiv.org/abs/2602.15012v1
- Date: Mon, 16 Feb 2026 18:52:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.636306
- Title: Cold-Start Personalization via Training-Free Priors from Structured World Models
- Title(参考訳): 構造化世界モデルからのトレーニングフリープライオリティによるコールドスタートパーソナライゼーション
- Authors: Avinandan Bose, Shuyue Stella Li, Faeze Brahman, Pang Wei Koh, Simon Shaolei Du, Yulia Tsvetkov, Maryam Fazel, Lin Xiao, Asli Celikyilmaz,
- Abstract要約: コールドスタートのパーソナライズには、ユーザ固有の履歴データが利用できない場合、インタラクションを通じてユーザの好みを推測する必要がある。
本稿では,オフライン構造学習とオンラインベイズ推論へのコールドスタート推論の分解を提案する。
生成した応答とユーザの指定した好みの80.8%を、RLでは68.5%、インタラクションでは3.5倍に調整します。
- 参考スコア(独自算出の注目度): 90.29121836614081
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cold-start personalization requires inferring user preferences through interaction when no user-specific historical data is available. The core challenge is a routing problem: each task admits dozens of preference dimensions, yet individual users care about only a few, and which ones matter depends on who is asking. With a limited question budget, asking without structure will miss the dimensions that matter. Reinforcement learning is the natural formulation, but in multi-turn settings its terminal reward fails to exploit the factored, per-criterion structure of preference data, and in practice learned policies collapse to static question sequences that ignore user responses. We propose decomposing cold-start elicitation into offline structure learning and online Bayesian inference. Pep (Preference Elicitation with Priors) learns a structured world model of preference correlations offline from complete profiles, then performs training-free Bayesian inference online to select informative questions and predict complete preference profiles, including dimensions never asked about. The framework is modular across downstream solvers and requires only simple belief models. Across medical, mathematical, social, and commonsense reasoning, Pep achieves 80.8% alignment between generated responses and users' stated preferences versus 68.5% for RL, with 3-5x fewer interactions. When two users give different answers to the same question, Pep changes its follow-up 39-62% of the time versus 0-28% for RL. It does so with ~10K parameters versus 8B for RL, showing that the bottleneck in cold-start elicitation is the capability to exploit the factored structure of preference data.
- Abstract(参考訳): コールドスタートのパーソナライズには、ユーザ固有の履歴データが利用できない場合、インタラクションを通じてユーザの好みを推測する必要がある。
メインの課題はルーティングの問題であり、各タスクは数十の好みのディメンションを許容するが、個々のユーザはわずかにしか気にせず、どのタスクが誰に尋ねるかに依存している。
限られた質問予算で、構造のない質問は、重要な次元を見逃します。
強化学習(Reinforcement learning)は自然な定式化であるが、マルチターン設定では、その端末の報酬は嗜好データの基準付き構造を利用することができず、実際に学習されたポリシーはユーザ応答を無視した静的な質問列に崩壊する。
本稿では,オフライン構造学習とオンラインベイズ推論へのコールドスタート推論の分解を提案する。
Pep (Preference Elicitation with Priors) は、完全なプロファイルからオフラインで嗜好相関の構造化された世界モデルを学び、トレーニングなしベイズ推論をオンラインで実行し、情報的質問を選択し、質問されない次元を含む完全な選好プロファイルを予測する。
このフレームワークは下流のソルバにまたがってモジュール化されており、単純な信念モデルのみを必要とする。
医学的、数学的、社会的、常識的な推論全体で、ペップは生成した応答とユーザの指定した好みの80.8%を達成し、RLは68.5%、相互作用は3.5倍少ない。
2人のユーザが同じ質問に対して異なる回答をした場合、Pepは39~62%の時間をRLで0~28%と変更する。
約10Kのパラメータに対してRLは8Bであり、コールドスタートのエスカレーションのボトルネックは、選好データの因子構造を利用する能力であることを示している。
関連論文リスト
- Lightweight Inference-Time Personalization for Frozen Knowledge Graph Embeddings [0.0]
GatedBiasは知識グラフのための軽量な推論時パーソナライズフレームワークである。
プロファイル固有の機能は、グラフ由来のバイナリゲートと組み合わせて、解釈可能な、パーエンタリティバイアスを生成する。
2つのベンチマークデータセット上でGatedBiasを評価する。
論文 参考訳(メタデータ) (2025-12-26T22:30:37Z) - Robust Preference Alignment via Directional Neighborhood Consensus [13.313830197011983]
本稿では,指向性近傍のコンセンサスを利用したポストホックなトレーニングフリー手法であるRobust Preference Selection(RPS)を紹介する。
RPSは、関連する好みの地域からの複数の応答をサンプリングし、優れた候補プールを作成する。
本研究は, 嗜好整合モデルの信頼性を高めるための, 実用的, 理論的に基礎的なソリューションを提案する。
論文 参考訳(メタデータ) (2025-10-23T12:39:20Z) - Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It [81.50711040539566]
現在の大規模言語モデル(LLM)開発は、タスク解決と優先順位調整を別の課題として扱う。
静的ベンチマークを対話型パーソナライズタスクに変換する評価手法であるPreFDISCOを紹介する。
我々のフレームワークは、ユーザコンテキストに応じて、同じ質問が異なる推論チェーンを必要とするシナリオを作成します。
論文 参考訳(メタデータ) (2025-09-30T18:55:28Z) - Test-Time Alignment via Hypothesis Reweighting [56.71167047381817]
大規模な事前訓練されたモデルは、しばしば未指定のタスクで苦労する。
テストタイムのユーザ意図にモデルを整合させるという課題に対処する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-11T23:02:26Z) - Personalized Language Modeling from Personalized Human Feedback [45.16986573937782]
パーソナライズされた大規模言語モデル(LLM)は、個々のユーザの好みに応答するように設計されている。
個人の好みを捉えるために軽量なユーザモデルを利用する効率的なフレームワークであるPersonalized-RLHFを提案する。
P-RLHF を用いて学習したパーソナライズされた LLM は,個々のユーザの好みとより密に一致した応答を生成する。
論文 参考訳(メタデータ) (2024-02-06T04:18:58Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - Everyone Deserves A Reward: Learning Customized Human Preferences [25.28261194665836]
リワードモデル(RM)は、対話品質を改善するために、大きな言語モデルと人間の好みを合わせるのに不可欠である。
そこで我々は3段階のRM学習手法を提案し,その効果を一般嗜好データセットとDSPセットの両方で実証的に検証した。
我々は、カスタマイズされたRMをトレーニングしながら、一般的な好みの能力をよりよく保存する方法をいくつか見出す。
論文 参考訳(メタデータ) (2023-09-06T16:03:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。