論文の概要: Probing Preference Representations: A Multi-Dimensional Evaluation and Analysis Method for Reward Models
- arxiv url: http://arxiv.org/abs/2511.12464v1
- Date: Sun, 16 Nov 2025 05:29:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.183787
- Title: Probing Preference Representations: A Multi-Dimensional Evaluation and Analysis Method for Reward Models
- Title(参考訳): Probing Preference Representations:Reward Modelの多次元評価と解析手法
- Authors: Chenglong Wang, Yifu Huo, Yang Gan, Yongyu Mu, Qiaozhi He, Murun Yang, Bei Li, Chunliang Zhang, Tongran Liu, Anxiang Ma, Zhengtao Yu, Jingbo Zhu, Tong Xiao,
- Abstract要約: 本研究は、嗜好表現を探索することで、報酬モデルの評価課題に対処する。
多次元リワードモデルベンチマーク (MRMBench) を構築する。
本稿では,報酬予測時に使用する次元を同定し,その解釈可能性を高める解析手法,推論時探索を提案する。
- 参考スコア(独自算出の注目度): 63.00458229517523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous methods evaluate reward models by testing them on a fixed pairwise ranking test set, but they typically do not provide performance information on each preference dimension. In this work, we address the evaluation challenge of reward models by probing preference representations. To confirm the effectiveness of this evaluation method, we construct a Multi-dimensional Reward Model Benchmark (MRMBench), a collection of six probing tasks for different preference dimensions. We design it to favor and encourage reward models that better capture preferences across different dimensions. Furthermore, we introduce an analysis method, inference-time probing, which identifies the dimensions used during the reward prediction and enhances its interpretability. Through extensive experiments, we find that MRMBench strongly correlates with the alignment performance of large language models (LLMs), making it a reliable reference for developing advanced reward models. Our analysis of MRMBench evaluation results reveals that reward models often struggle to capture preferences across multiple dimensions, highlighting the potential of multi-objective optimization in reward modeling. Additionally, our findings show that the proposed inference-time probing method offers a reliable metric for assessing the confidence of reward predictions, which ultimately improves the alignment of LLMs.
- Abstract(参考訳): 従来の方法では、固定されたペアのランク付けテストセットでテストすることで、報酬モデルを評価するが、通常、それぞれの好みの寸法に関するパフォーマンス情報を提供しない。
本研究では,優先表現を探索することにより,報酬モデルの評価課題に対処する。
この評価手法の有効性を確認するため、異なる選好次元に対する6つの探索タスクの集合であるMRMBench(Multi-dimensional Reward Model Benchmark)を構築した。
私たちは、さまざまな次元の好みをよりよく捉えた報酬モデルに好意的かつ奨励的にデザインします。
さらに,報奨予測の際に使用する次元を同定し,その解釈可能性を高める解析手法である推論時間探索を導入する。
MRMBenchは大規模言語モデル(LLM)のアライメント性能と強く相関し,高度な報酬モデル開発のための信頼性の高い基準となる。
MRMBench評価の結果から,報奨モデルが複数の次元にわたる選好を捉えるのに苦戦していることが明らかとなり,報奨モデルにおける多目的最適化の可能性が浮き彫りになった。
さらに,提案手法は,報酬予測の信頼度を評価するための信頼性の高い指標となり,LLMのアライメントが向上することを示した。
関連論文リスト
- Beyond Monolithic Rewards: A Hybrid and Multi-Aspect Reward Optimization for MLLM Alignment [1.8552770604791606]
相補的な報酬パラダイムを統合するハイブリッド報酬モデリングフレームワークを提案する。
ハイブリッドおよびマルチアスペクト報酬モデルを適用する際に、異なるマルチモーダルベンチマーク間で一貫した改善を示す。
3Bファミリーで最高のパフォーマンスモデルでは、一般および数学の推論タスクで平均9.5%の改善を実現しています。
論文 参考訳(メタデータ) (2025-10-06T18:53:23Z) - Fake it till You Make it: Reward Modeling as Discriminative Prediction [49.31309674007382]
GAN-RMは、手動の嗜好アノテーションと明示的な品質次元工学を排除した効率的な報酬モデリングフレームワークである。
提案手法は,少数の対象サンプルを識別し,報酬モデルを訓練する。
実験では、GAN-RMが複数の主要なアプリケーションにまたがって有効であることを実証した。
論文 参考訳(メタデータ) (2025-06-16T17:59:40Z) - Rethinking Reward Model Evaluation Through the Lens of Reward Overoptimization [15.729285736811383]
リワードモデルは、人間のフィードバックからの強化学習において重要な役割を果たす。
既存の報酬モデルベンチマークは、最適化されたポリシーの性能と弱い相関を示す。
論文 参考訳(メタデータ) (2025-05-19T06:43:08Z) - Detecting Prefix Bias in LLM-based Reward Models [4.596249232904721]
選好データセットに基づいて訓練された報酬モデルにおいて,プレフィックスバイアスを検知し,評価するための新しい手法を提案する。
これらの指標を活用して、人種と性別の異なる嗜好モデルにおける大きなバイアスを明らかにします。
本研究は,公正かつ信頼性の高い報酬モデルを開発する上で,バイアス対応データセットの設計と評価を重要視するものである。
論文 参考訳(メタデータ) (2025-05-13T21:50:03Z) - Direct Judgement Preference Optimization [79.54459973726405]
我々は、他のモデルのアウトプットを評価し、批判するために、生成的判断として大きな言語モデル(LLM)を訓練する。
我々は,異なるユースケースに対する選好ペアの収集に3つのアプローチを採用し,それぞれが異なる視点から生成判断を改善することを目的としている。
提案モデルは,位置や長さの偏りなどの固有バイアスに強く対応し,実践者が指定した評価プロトコルに柔軟に適用し,下流ジェネレータモデルを改善する上で有用な言語フィードバックを提供する。
論文 参考訳(メタデータ) (2024-09-23T02:08:20Z) - Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。
しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。
本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文 参考訳(メタデータ) (2024-04-02T11:40:38Z) - Think Twice: Measuring the Efficiency of Eliminating Prediction
Shortcuts of Question Answering Models [3.9052860539161918]
そこで本研究では,任意の特徴量に対するモデルのスケール依存度を簡易に測定する手法を提案する。
質問回答(QA: Question Answering)における各種事前学習モデルとデバイアス法について、既知の予測バイアスと新たに発見された予測バイアスの集合に対するロバスト性を評価する。
既存のデバイアス法は、選択された刺激的特徴への依存を軽減することができるが、これらの手法のOOD性能向上は、偏りのある特徴への依存を緩和することによって説明できない。
論文 参考訳(メタデータ) (2023-05-11T14:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。