論文の概要: Learning Transferable Latent User Preferences for Human-Aligned Decision Making
- arxiv url: http://arxiv.org/abs/2605.12682v1
- Date: Tue, 12 May 2026 19:32:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.645811
- Title: Learning Transferable Latent User Preferences for Human-Aligned Decision Making
- Title(参考訳): ヒューマンアラインな意思決定のための伝達可能な潜在ユーザ嗜好の学習
- Authors: Alina Hyk, Sandhya Saisubramanian,
- Abstract要約: ヒューマンアラインな意思決定には、明示された目標と潜伏したユーザの好みの両方を考慮しなければならない。
本稿では,CLIPR(Conversational Learning for Inferring Preferences and Reasoning)を紹介する。
3つのデータセットの評価とユーザスタディによると、CLIPRはアライメントの改善と推論コストの削減において、既存の手法を一貫して上回っている。
- 参考スコア(独自算出の注目度): 4.1789291746171715
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) are increasingly used as reasoning modules in many applications. While they are efficient in certain tasks, LLMs often struggle to produce human-aligned solutions. Human-aligned decision making requires accounting for both explicitly stated goals and latent user preferences that shape how ambiguous situations should be resolved. Existing approaches to incorporating such preferences either rely on extensive and repeated user interactions or fail to generalize latent preferences across tasks and contexts, limiting their practical applicability. We consider a setting in which an LLM is used for high-level reasoning and is responsible for inferring latent user preferences from limited interactions, which guides downstream decision making. We introduce CLIPR (Conversational Learning for Inferring Preferences and Reasoning), a framework that learns actionable, transferable natural language rules that represent latent user preferences from minimal conversational input. These rules are iteratively refined through adaptive feedback and applied to both in-distribution and out-of-distribution ambiguous tasks across multiple environments. Evaluations on three datasets and a user study show that CLIPR consistently outperforms existing methods in improving alignment and reducing inference costs.
- Abstract(参考訳): 大規模言語モデル (LLM) は、多くのアプリケーションにおいて推論モジュールとして使われるようになっている。
特定のタスクでは効率が良いが、LLMはヒューマンアラインなソリューションを作るのに苦労することが多い。
ヒューマンアラインな意思決定には、明確に述べられた目標と、曖昧な状況をいかに解決すべきかを形作る潜伏したユーザの好みの両方を考慮する必要があります。
このような嗜好を取り入れるための既存のアプローチは、広範囲で繰り返されるユーザインタラクションに依存するか、タスクやコンテキストにまたがる遅延選好の一般化に失敗し、実践的な適用性を制限している。
我々は,LLMを高レベルな推論に利用し,限られたインタラクションから潜在ユーザの嗜好を推測する役割を担っていることを考察し,下流での意思決定を導く。
CLIPR(Conversational Learning for Inferring Preferences and Reasoning)は,最小限の会話入力から潜在ユーザの好みを表す行動可能な自然言語規則を学習するフレームワークである。
これらのルールは、適応的なフィードバックを通じて反復的に洗練され、複数の環境における分配内および分配外あいまいなタスクに適用される。
3つのデータセットの評価とユーザスタディによると、CLIPRはアライメントの改善と推論コストの削減において、既存の手法を一貫して上回っている。
関連論文リスト
- Towards Realistic Personalization: Evaluating Long-Horizon Preference Following in Personalized User-LLM Interactions [50.70965714314064]
大規模言語モデル(LLM)は、ユーザが拡張されたインタラクションよりも複雑で多様な好みを共有するパーソナルアシスタントとして、ますます機能している。
この研究は、パーソナライズされたユーザ-LLMインタラクションにおいて、リアルな嗜好フォローを評価するためのベンチマークであるRealPrefを提案する。
論文 参考訳(メタデータ) (2026-03-04T15:42:43Z) - Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It [81.50711040539566]
現在の大規模言語モデル(LLM)開発は、タスク解決と優先順位調整を別の課題として扱う。
静的ベンチマークを対話型パーソナライズタスクに変換する評価手法であるPreFDISCOを紹介する。
我々のフレームワークは、ユーザコンテキストに応じて、同じ質問が異なる推論チェーンを必要とするシナリオを作成します。
論文 参考訳(メタデータ) (2025-09-30T18:55:28Z) - Implementing Rational Choice Functions with LLMs and Measuring their Alignment with User Preferences [15.72977233489024]
我々は,大規模言語モデルを用いて合理的選択関数を実装する設計原則を提唱した。
自動車分野におけるIUIの実用化に向けた実証的研究を通じて,本手法の適用性を実証する。
論文 参考訳(メタデータ) (2025-04-22T09:08:21Z) - Large Language Model Empowered Recommendation Meets All-domain Continual Pre-Training [60.38082979765664]
CPRecは、レコメンデーションのための全ドメイン連続事前トレーニングフレームワークである。
LLMを連続的な事前学習パラダイムを通じて、普遍的なユーザ行動と整合させる。
2つの異なるプラットフォームから5つの実世界のデータセットを実験する。
論文 参考訳(メタデータ) (2025-04-11T20:01:25Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Beyond the Binary: Capturing Diverse Preferences With Reward Regularization [15.518838657050173]
この二項選択への依存は、現実のタスクにおいて対象ユーザのより広範囲で集約的な嗜好を捉えるものではない、と我々は主張する。
本稿では、既存の二分選好データセットを合成選好判断で拡張し、潜在的なユーザ不一致を推定する、シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-12-05T02:35:46Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。