論文の概要: Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It
- arxiv url: http://arxiv.org/abs/2510.00177v1
- Date: Tue, 30 Sep 2025 18:55:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.209989
- Title: Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It
- Title(参考訳): パーソナライズされた推論: ジャスト・イン・タイムのパーソナライズとLCMが失敗する理由
- Authors: Shuyue Stella Li, Avinandan Bose, Faeze Brahman, Simon Shaolei Du, Pang Wei Koh, Maryam Fazel, Yulia Tsvetkov,
- Abstract要約: 現在の大規模言語モデル(LLM)開発は、タスク解決と優先順位調整を別の課題として扱う。
静的ベンチマークを対話型パーソナライズタスクに変換する評価手法であるPreFDISCOを紹介する。
我々のフレームワークは、ユーザコンテキストに応じて、同じ質問が異なる推論チェーンを必要とするシナリオを作成します。
- 参考スコア(独自算出の注目度): 81.50711040539566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current large language model (LLM) development treats task-solving and preference alignment as separate challenges, optimizing first for objective correctness, then for alignment to aggregated human preferences. This paradigm fails in human-facing applications where solving a problem correctly is insufficient if the response mismatches the user's needs. This challenge intensifies in just-in-time scenarios where no prior user interaction history exists due to cold-start conditions or privacy constraints. LLMs need to identify what they don't know about user preferences, strategically elicit preference values through questioning, then adapt their reasoning processes and responses accordingly -- a complicated chain of cognitive processes which we term personalized reasoning. We introduce PREFDISCO, an evaluation methodology that transforms static benchmarks into interactive personalization tasks using psychologically-grounded personas with sparse preferences. Our framework creates scenarios where identical questions require different reasoning chains depending on user context, as optimal explanation approaches vary by individual expertise and preferences while maintaining factual accuracy. Evaluation of 21 frontier models across 10 tasks reveals 29.0% of naive personalization attempts produce worse preference alignment than generic responses, yet generic responses also fail to serve individual user needs effectively. These findings suggest personalized reasoning requires dedicated development rather than emerging naturally. PREFDISCO establishes personalized reasoning as a measurable research frontier and reveals fundamental limitations in current LLMs' interactive capabilities, providing a foundation for developing systems that can adapt to individual users in education, healthcare, and technical domains where personalization is critical.
- Abstract(参考訳): 現在の大規模言語モデル(LLM)の開発は、タスク解決と優先順位調整を個別の課題として扱い、まず客観的な正確性に最適化し、次に集約された人間の嗜好にアライメントする。
このパラダイムは、ユーザーの要求に合わない場合、正しく問題を解決するのに不十分な人間向けアプリケーションでは失敗する。
この課題は、コールドスタート条件やプライバシ制約によって、以前のユーザインタラクション履歴が存在しないジャスト・イン・タイムのシナリオを強化する。
LLMは、ユーザの好みについて知らないものを識別し、質問を通じて戦略的に好みの値を導き、それに応じて推論プロセスとレスポンスを適用する必要があります。
そこで本稿では,静的なベンチマークを,心理的に座屈したペルソナと疎い嗜好を用いた対話型パーソナ化タスクに変換する評価手法であるPreFDISCOを紹介する。
本フレームワークは,個別の専門知識や嗜好によって最適な説明方法が異なり,事実の正確性を維持しながら,同一の質問がユーザコンテキストによって異なる推論連鎖を必要とするシナリオを作成する。
10タスクにわたる21のフロンティアモデルの評価では、ナイーブなパーソナライゼーションの試みの29.0%は、ジェネリックレスポンスよりも好みのアライメントが悪くなっている。
これらの結果は、パーソナライズされた推論には自然に現れるのではなく、専用の開発が必要であることを示唆している。
PreFDISCOはパーソナライズ推論を測定可能な研究フロンティアとして確立し、パーソナライズが不可欠である教育、医療、技術分野の個々のユーザーに対応するシステムを開発するための基盤を提供する。
関連論文リスト
- Pathways of Thoughts: Multi-Directional Thinking for Long-form Personalized Question Answering [57.12316804290369]
ユーザ固有の情報ニーズに質問応答システムを適用するためには,パーソナライゼーションが不可欠である。
本稿では,タスク固有の微調整を必要とせず,任意の大規模言語モデル (LLM) に適用可能な推論段階の方法として,思考の経路 (PoT) を提案する。
PoTは競争ベースラインを一貫して上回り、13.1%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2025-09-23T14:44:46Z) - NextQuill: Causal Preference Modeling for Enhancing LLM Personalization [82.15961484963256]
因果選好モデルに基づく新しいパーソナライズフレームワークであるNextQuillを紹介する。
この洞察に基づいて、NextQuillは2つの補完的なアライメント戦略を導入した。
複数のパーソナライズベンチマークの実験により、NextQuillはパーソナライズ品質を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-06-03T02:08:55Z) - A Survey on Personalized Alignment -- The Missing Piece for Large Language Models in Real-World Applications [28.181295575180293]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、現実のアプリケーションへの移行には限界がある。
本稿では、パーソナライズされたアライメントに関する最初の包括的調査を示す。
本稿では、優先メモリ管理、パーソナライズされた生成、フィードバックに基づくアライメントを含む統合されたフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-21T10:09:16Z) - FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users [111.56469697145519]
メタ学習問題として報酬モデルを再設計するFew-Shot Preference Optimizationを提案する。
このフレームワークでは、LDMはそのユーザからいくつかのラベル付けされた好みを通じてユーザへの迅速な適応を学び、パーソナライズされた報酬関数を構築する。
公開されているLLMを用いて100万以上の合成パーソナライズされた好みを生成する。
本研究は,映画レビュー,教育背景に基づく教育適応,一般質問応答の3分野を対象に,最大1,500人の総合ユーザを対象に,パーソナライズされたオープンエンド世代に対するFSPOの評価を行った。
論文 参考訳(メタデータ) (2025-02-26T17:08:46Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。