論文の概要: User-centric Subjective Leaderboard by Customizable Reward Modeling
- arxiv url: http://arxiv.org/abs/2508.09463v1
- Date: Wed, 13 Aug 2025 03:39:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.746175
- Title: User-centric Subjective Leaderboard by Customizable Reward Modeling
- Title(参考訳): カスタマイズ可能なリワードモデリングによるユーザ中心型主観的リーダーシップ
- Authors: Qi Jia, Xiujie Song, Zicheng Zhang, Yijin Guo, Kaiwei Zhang, Zijian Chen, Guangtao Zhai,
- Abstract要約: ユーザ中心型主観的リーダーシップ(USL)について紹介する。
さまざまな現実世界のシナリオにまたがって、大規模言語モデル(LLM)の好み駆動の動的ランキングを提供する。
我々の研究は、10万件以上の主観的クエリを含む、実際の人間の嗜好データの徹底的な調査に基づいている。
- 参考スコア(独自算出の注目度): 34.40455169451943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing benchmarks for large language models (LLMs) predominantely focus on assessing their capabilities through verifiable tasks. Such objective and static benchmarks offer limited utility for practical LLM selection, making it difficult for users to find suitable models for their individual needs. To bridge this gap, we present the first User-Centric Subjective Leaderboard (USL), which provides a preference-driven, dynamic ranking of LLMs across diverse real-world scenarios. Our work is built upon a thorough investigation of real human preference data, involving more than 10K subjective queries. Our investigation reveals significant diversity and contradictions in human preferences, which limit the effectiveness of state-of-the-art reward models. To address this, we introduce Customizable Reward Models (CRMs). With only 4B parameters, our CRM surpasses the performance of leading models such as GPT-4.1 and Gemini-2.5-pro, showing exceptional generalization capabilities across new topics and criteria. The USL, powered by CRMs, exhibits strong negative correlations to contradictory preferences.
- Abstract(参考訳): 既存の大規模言語モデル(LLM)のベンチマークは、検証可能なタスクを通じてその能力を評価することに集中している。
このような客観的かつ静的なベンチマークは、実用的なLCM選択のための限られたユーティリティを提供しており、ユーザが個々のニーズに適したモデルを見つけることは困難である。
このギャップを埋めるために、我々は、様々な現実のシナリオにまたがるLLMの選好駆動型動的ランキングを提供する、最初のユーザ中心主観的リーダーボード(USL)を提示する。
我々の研究は、10万件以上の主観的クエリを含む、実際の人間の嗜好データに関する徹底的な調査に基づいている。
本研究は,ヒトの嗜好に有意な多様性と矛盾を呈し,最先端の報酬モデルの有効性を抑えるものである。
これを解決するために、CRM(Customizable Reward Models)を紹介します。
4Bパラメータだけで、CRMはGPT-4.1やGemini-2.5-proといった主要なモデルの性能を上回り、新しいトピックや基準にまたがる優れた一般化能力を示している。
USLはCRMを利用しており、矛盾する選好に強い負の相関を示す。
関連論文リスト
- CE-RM: A Pointwise Generative Reward Model Optimized via Two-Stage Rollout and Unified Criteria [48.70940362676624]
専用の2段階ロールアウト法を用いて学習したポイントワイズ生成報酬モデルCE-RM-4Bを提案する。
オープンソースの選好データセットから算出した約5.7Kの高品質データを用いて、CE-RM-4Bは様々な報奨モデルベンチマークにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2026-01-28T07:46:13Z) - One Adapts to Any: Meta Reward Modeling for Personalized LLM Alignment [55.86333374784959]
これらの制約に対処するには、データの適合からユーザの好みを学習し、嗜好適応のプロセスを学ぶためのパラダイムシフトが必要である、と我々は主張する。
メタ学習問題としてパーソナライズされた報酬モデルを変更するメタリワードモデリング(MRM)を提案する。
MRMはパーソナライズを強化し、ユーザの堅牢性を向上し、ベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-01-26T17:55:52Z) - Approximating Human Preferences Using a Multi-Judge Learned System [35.18016233072556]
本稿では,複数のルーリック条件の審査員から出力を収集することを学ぶことによって,多様なペルソナに基づく選好をモデル化する枠組みを提案する。
コントリビューションには、大規模に好みラベルを合成するペルソナベースの方法と、アグリゲータの2つの異なる実装が含まれている。
論文 参考訳(メタデータ) (2025-10-29T18:32:53Z) - Benchmarking and Improving LLM Robustness for Personalized Generation [42.26075952121524]
反応が事実的正確であり、ユーザの好みと一致している場合、モデルをロバストと定義します。
私たちの作業は、現在の評価プラクティスにおける重要なギャップを強調し、より信頼性が高く、ユーザ対応のデプロイメントをサポートするためのツールとメトリクスを導入しています。
論文 参考訳(メタデータ) (2025-09-18T13:56:14Z) - PersRM-R1: Enhance Personalized Reward Modeling with Reinforcement Learning [7.899605480166484]
PersRM-R1は、個人的要因を特定・表現するために設計された最初の推論に基づく報酬モデリングフレームワークである。
提案手法は,合成データ生成と教師付き微調整と強化微調整を組み合わせた2段階の訓練パイプラインを組み合わせる。
実験結果から,PersRM-R1は類似のモデルよりも優れており,精度と一般化性の両方において,はるかに大きなモデルの性能に匹敵することがわかった。
論文 参考訳(メタデータ) (2025-08-12T14:25:58Z) - Two Minds Better Than One: Collaborative Reward Modeling for LLM Alignment [35.80989342492335]
人間のフィードバックのノイズの多い好みは 報酬の一般化に繋がる
本研究の目的は,報酬モデルにおいて,騒音の嗜好が人間の嗜好とどのように異なるかを明らかにすることである。
我々は、堅牢な選好学習を実現するためのオンラインコラボレーション・リワード・モデリング・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T10:58:20Z) - Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)の整合化に成功している。
我々は、長さバイアス軽減と長さ指示に従うモデルの性能を高めるために、$textbfR$esponse-$textbfc$onditioned $textbfB$radley-$textbfT$erry (Rc-BT)モデルを導入する。
また、報酬モデルと直接ポリシー最適化のためにRc-BTモデルを利用するRc-RMおよびRc-DPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-02T14:50:25Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Lifelong Personalized Low-Rank Adaptation of Large Language Models for Recommendation [50.837277466987345]
我々は、推奨のために大規模言語モデル(LLM)の分野に焦点を当てる。
ユーザ毎に独立したLoRAを管理するPersonalized LoRAモジュールを組み込んだRecLoRAを提案する。
また、Few2Many Learning Strategyを設計し、従来のレコメンデーションモデルをレンズとして使用して、小さなトレーニングスペースをフルスペースに拡大する。
論文 参考訳(メタデータ) (2024-08-07T04:20:28Z) - On Diversified Preferences of Large Language Model Alignment [51.26149027399505]
本稿では,様々な大きさの報酬モデルに対する実験スケーリング法則の定量的解析を行った。
分析の結果,ヒトの嗜好の多様化による影響は,モデルサイズとデータサイズの両方に依存することが明らかとなった。
十分なキャパシティを持つ大きなモデルでは、さまざまな好みによるネガティブな影響が軽減される一方、より小さなモデルはそれらに対応するのに苦労する。
論文 参考訳(メタデータ) (2023-12-12T16:17:15Z) - Compositional preference models for aligning LMs [15.036426712762147]
構成的選好モデル(CPM)は、一つのグローバルな選好評価をいくつかの解釈可能な特徴に分解するフレームワークである。
CPMは、選好データのどの特性を使って選好モデルを訓練するかを制御し、人間の選好判断を過小評価していると考えられる特徴に基づいて構築することができる。
論文 参考訳(メタデータ) (2023-10-17T01:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。