論文の概要: EVALUESTEER: Measuring Reward Model Steerability Towards Values and Preference
- arxiv url: http://arxiv.org/abs/2510.06370v1
- Date: Tue, 07 Oct 2025 18:36:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.146795
- Title: EVALUESTEER: Measuring Reward Model Steerability Towards Values and Preference
- Title(参考訳): EVALUESTEER:価値と優先に向けての逆モデルステアビリティの測定
- Authors: Kshitish Ghate, Andy Liu, Devansh Jain, Taylor Sorensen, Atoosa Kasirzadeh, Aylin Caliskan, Mona T. Diab, Maarten Sap,
- Abstract要約: 大規模言語モデル(LLM)は世界中に展開され、世界中のユーザの多様な好みに合わせて複数のシステムを生成する。
ESTEERは、LCMのユーザ価値とスタイル的嗜好プロファイルに対する操縦性を測定するためのベンチマークである。
- 参考スコア(独自算出の注目度): 43.42154744611566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) are deployed globally, creating pluralistic systems that can accommodate the diverse preferences and values of users worldwide becomes essential. We introduce EVALUESTEER, a benchmark to measure LLMs' and reward models' (RMs) steerability towards users' value and stylistic preference profiles grounded in psychology and human-LLM interaction literature. To address the gap in existing datasets that do not support controlled evaluations of RM steering, we synthetically generated 165,888 preference pairs -- systematically varying pairs along 4 value dimensions (traditional, secular-rational, survival, and self-expression) and 4 style dimensions (verbosity, readability, confidence, and warmth). We use EVALUESTEER to evaluate whether, given a user profile and a pair of candidate value-laden and style-laden responses, LLMs and RMs are able to select the output that aligns with the user's preferences. We evaluate six open-source and proprietary LLMs and RMs under sixteen systematic prompting conditions and six preference comparison scenarios. Notably, our results show that, when given the user's full profile of values and stylistic preferences, the best models achieve <75% accuracy at choosing the correct response, in contrast to >99% accuracy when only relevant style and value preferences are provided. EVALUESTEER thus highlights the limitations of current RMs at identifying and adapting to relevant user profile information, and provides a challenging testbed for developing RMs that can be steered towards diverse human values and preferences.
- Abstract(参考訳): 大規模言語モデル(LLM)が世界規模で展開されるにつれて、世界中のユーザのさまざまな好みや価値観に対応できる多言語システムの構築が不可欠である。
EVALUESTEERは,LLMと報酬モデル(RM)のユーザ価値と,心理学と人間-LLMインタラクションの文献に根ざしたスタイリスティックな嗜好プロファイルに対するステアビリティを計測するベンチマークである。
RMステアリングの制御評価をサポートしない既存のデータセットのギャップを解決するため,4つの値次元(伝統的,世俗的,生き残り,自己表現)と4つのスタイル次元(バービシティ,可読性,自信,温かさ)に沿って,体系的に異なる165,888対の選好ペアを合成した。
EVALUESTEERを用いて、ユーザプロファイルと候補値レイデンとスタイルレイデンのペアが与えられた場合、LLMとRMはユーザの好みに合わせて出力を選択することができるかを評価する。
我々は16の系統的プロンプト条件と6つの選好比較シナリオの下で,オープンソースおよびプロプライエタリなLLMとRMを評価した。
特に,本研究の結果は,ユーザによる評価の完全なプロファイルとスタイル的嗜好を考慮に入れた場合,適切な応答を選択する上で,最高のモデルが75%以上の精度を達成できることを示し,関連するスタイルと嗜好のみを提供する場合の精度は99%に抑えられた。
EVALUESTEERは、関連するユーザプロファイル情報を特定し、適応する現在のRMの限界を強調し、多様な人間の価値観や嗜好に配慮できるRMを開発するための挑戦的なテストベッドを提供する。
関連論文リスト
- User-centric Subjective Leaderboard by Customizable Reward Modeling [34.40455169451943]
ユーザ中心型主観的リーダーシップ(USL)について紹介する。
さまざまな現実世界のシナリオにまたがって、大規模言語モデル(LLM)の好み駆動の動的ランキングを提供する。
我々の研究は、10万件以上の主観的クエリを含む、実際の人間の嗜好データの徹底的な調査に基づいている。
論文 参考訳(メタデータ) (2025-08-13T03:39:04Z) - Steerable Pluralism: Pluralistic Alignment via Few-Shot Comparative Regression [9.624392327607833]
大規模言語モデル(LLM)は現在、人間のフィードバックから強化学習のような技術を用いて調整されている。
本稿では,個々のユーザの好みに適応可能な,少数ショット比較回帰に基づく評価可能な多元性モデルを提案する。
論文 参考訳(メタデータ) (2025-08-11T22:40:31Z) - FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users [111.56469697145519]
メタ学習問題として報酬モデルを再設計するFew-Shot Preference Optimizationを提案する。
このフレームワークでは、LDMはそのユーザからいくつかのラベル付けされた好みを通じてユーザへの迅速な適応を学び、パーソナライズされた報酬関数を構築する。
公開されているLLMを用いて100万以上の合成パーソナライズされた好みを生成する。
本研究は,映画レビュー,教育背景に基づく教育適応,一般質問応答の3分野を対象に,最大1,500人の総合ユーザを対象に,パーソナライズされたオープンエンド世代に対するFSPOの評価を行った。
論文 参考訳(メタデータ) (2025-02-26T17:08:46Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - CLAVE: An Adaptive Framework for Evaluating Values of LLM Generated Responses [34.77031649891843]
CLAVEは2つの補完的なLarge Language Model(LLM)を統合する新しいフレームワークである。
このデュアルモデルアプローチは、値タイプ当たり100個の人ラベルサンプルを使用して、任意の値システムでキャリブレーションを可能にする。
ValEvalは13k+(text,value,label)12+を多種多様なドメインで構成し、3つの主要なバリューシステムをカバーする包括的データセットである。
論文 参考訳(メタデータ) (2024-07-15T13:51:37Z) - CFaiRLLM: Consumer Fairness Evaluation in Large-Language Model Recommender System [16.84754752395103]
本研究は,Large Language Model (LLM) ベースのレコメンデータシステムにおける公平性評価に関する過去の研究に批判的な立場を取る。
CFaiRLLMは、真の嗜好アライメントを組み込むだけでなく、交叉フェアネスを厳格に検証する拡張評価フレームワークである。
CFaiRLLMの有効性を検証するため,MovieLensとLastFMを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-03-08T20:44:59Z) - On Diversified Preferences of Large Language Model Alignment [51.26149027399505]
本稿では,様々な大きさの報酬モデルに対する実験スケーリング法則の定量的解析を行った。
分析の結果,ヒトの嗜好の多様化による影響は,モデルサイズとデータサイズの両方に依存することが明らかとなった。
十分なキャパシティを持つ大きなモデルでは、さまざまな好みによるネガティブな影響が軽減される一方、より小さなモデルはそれらに対応するのに苦労する。
論文 参考訳(メタデータ) (2023-12-12T16:17:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。