論文の概要: Many Preferences, Few Policies: Towards Scalable Language Model Personalization
- arxiv url: http://arxiv.org/abs/2604.04144v2
- Date: Fri, 10 Apr 2026 17:55:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 15:53:49.857479
- Title: Many Preferences, Few Policies: Towards Scalable Language Model Personalization
- Title(参考訳): 言語モデルのパーソナライズに向けて
- Authors: Cheol Woo Kim, Jai Moondra, Roozbeh Nahavandi, Andrew Perrault, Milind Tambe, Swati Gupta,
- Abstract要約: LLMパーソナライゼーションの聖杯は、各ユーザのための単一のLCMで、そのユーザの好みと完全に一致しています。
ヘテロジニアスユーザ間の代表的振る舞いをキャプチャする,LLMの小さなポートフォリオを選択するための基本的手法を開発した。
これらの保証を検証し、共通のベースラインよりも高い出力多様性を示す実験結果を提供する。
- 参考スコア(独自算出の注目度): 26.263947748558824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The holy grail of LLM personalization is a single LLM for each user, perfectly aligned with that user's preferences. However, maintaining a separate LLM per user is impractical due to constraints on compute, memory, and system complexity. We address this challenge by developing a principled method for selecting a small portfolio of LLMs that captures representative behaviors across heterogeneous users. We model user preferences across multiple traits (e.g., safety, humor, brevity) through a multi-dimensional weight vector. Given reward functions across these dimensions, our algorithm PALM (Portfolio of Aligned LLMs) generates a small portfolio of LLMs such that, for any weight vector, the portfolio contains a near-optimal LLM for the corresponding scalarized objective. To the best of our knowledge, this is the first result that provides theoretical guarantees on both the size and approximation quality of LLM portfolios for personalization. It characterizes the trade-off between system cost and personalization, as well as the diversity of LLMs required to cover the landscape of user preferences. We provide empirical results that validate these guarantees and demonstrate greater output diversity over common baselines.
- Abstract(参考訳): LLMパーソナライゼーションの聖杯は、ユーザ毎にひとつのLLMで、そのユーザの好みと完全に一致しています。
しかし、コンピューティング、メモリ、システムの複雑さに制約があるため、ユーザ毎に別々のLLMを維持することは現実的ではない。
この課題に対処するために、異種ユーザ間の代表的振る舞いをキャプチャするLLMの小さなポートフォリオを選択するための原則的手法を開発した。
多次元の重みベクトルを用いて、複数の特性(例えば、安全性、ユーモア、簡潔さ)にわたるユーザの好みをモデル化する。
これらの次元にわたって報酬関数が与えられると、我々のアルゴリズムPALM(Portfolio of Aligned LLMs)は、任意の重みベクトルに対して、対応するスカラー化目的に対してほぼ最適のLPMを含むような、小さなLCMのポートフォリオを生成する。
我々の知る限りでは、パーソナライズのためのLCMポートフォリオのサイズと近似品質を理論的に保証する最初の結果である。
システムコストとパーソナライゼーションのトレードオフと、ユーザ好みの状況をカバーするのに必要なLCMの多様性を特徴付ける。
これらの保証を検証し、共通のベースラインよりも高い出力多様性を示す実験結果を提供する。
関連論文リスト
- HyPerAlign: Interpretable Personalized LLM Alignment via Hypothesis Generation [24.67727411391369]
HyPerAlignは、大規模言語モデルに対する解釈可能かつサンプル効率の仮説駆動パーソナライズアプローチである。
我々は2つの異なるパーソナライズタスク、すなわち著者帰属と熟考的アライメントについて実験を行った。
その結果、仮説駆動型パーソナライゼーションの方が好みに基づく微調整法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-29T18:01:46Z) - Measuring What Makes You Unique: Difference-Aware User Modeling for Enhancing LLM Personalization [68.79814761867314]
本稿では,Large Language Models (LLM) のパーソナライゼーションを強化するために,差分認識パーソナライズ学習(DPL)を提案する。
DPLは、戦略的に代表ユーザを比較のために選択し、タスク関連の違いを抽出するための構造化標準を確立する。
実世界のデータセットの実験により、DPLはLLMのパーソナライゼーションを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-03-04T09:53:26Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる顕著な性能のために広く採用されている。
これらの個々のLCMは、固有のトレーニングバイアス、モデルサイズ制約、トレーニング前のデータセットの品質や多様性による、複雑なタスクの一般化とパフォーマンスの制限を示す。
本稿では,入力クエリをLLMの最も適切なサブセットに効率的に誘導するSelectLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-16T06:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。