論文の概要: VRM: Teaching Reward Models to Understand Authentic Human Preferences
- arxiv url: http://arxiv.org/abs/2603.04974v1
- Date: Thu, 05 Mar 2026 09:12:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.15845
- Title: VRM: Teaching Reward Models to Understand Authentic Human Preferences
- Title(参考訳): VRM: Reward Models to Understand of Authentic Human Preferences
- Authors: Biao Liu, Ning Xu, Junming Yang, Hao Xu, Xin Geng,
- Abstract要約: 変分回帰モデリングは、人間の嗜好判断の評価過程を明示的にモデル化する新しいフレームワークである。
以上の結果から,VRMは人間の嗜好を捉える上で,既存の手法よりも優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 39.939650821889764
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable success across diverse natural language tasks, yet the reward models employed for aligning LLMs often encounter challenges of reward hacking, where the approaches predominantly rely on directly mapping prompt-response pairs to scalar scores, which may inadvertently capture spurious correlations rather than authentic human preferences. In contrast, human evaluation employs a sophisticated process that initially weighs the relative importance of multiple high-dimensional objectives according to the prompt context, subsequently evaluating response quality through low-dimensional semantic features such as logical coherence and contextual appropriateness. Motivated by this consideration, we propose VRM, i.e., Variational Reward Modeling, a novel framework that explicitly models the evaluation process of human preference judgments by incorporating both high-dimensional objective weights and low-dimensional semantic features as latent variables, which are inferred through variational inference techniques. Additionally, we provide a theoretical analysis showing that VRM can achieve a tighter generalization error bound compared to the traditional reward model. Extensive experiments on benchmark datasets demonstrate that VRM significantly outperforms existing methods in capturing authentic human preferences.
- Abstract(参考訳): 大きな言語モデル(LLM)は、様々な自然言語タスクで顕著な成功を収めているが、LLMの整列に使用される報酬モデルは、しばしば報酬ハックの課題に直面する。
対照的に、人間の評価は、最初はプロンプトコンテキストに従って複数の高次元目標の相対的重要性を重み付け、その後、論理的コヒーレンスや文脈的適切性といった低次元のセマンティック特徴を通して応答品質を評価する、洗練されたプロセスを採用している。
そこで本研究では,高次元の主観的重みと低次元のセマンティック特徴の両方を潜在変数として組み込むことにより,人間の嗜好判断の評価過程を明示的にモデル化する新しいフレームワークである「変分回帰モデリング」を提案する。
さらに,従来の報酬モデルと比較して,VRMがより厳密な一般化誤差を達成可能であることを示す理論的解析を行った。
ベンチマークデータセットの大規模な実験により、VRMは人間の嗜好を正確に捉える上で、既存の方法よりも大幅に優れていることが示された。
関連論文リスト
- LVLM-Aided Alignment of Task-Specific Vision Models [49.96265491629163]
タスク固有の視覚モデルは、高い領域において不可欠である。
本稿では,タスク固有の視覚モデルと人間のドメイン知識を協調する,新しい,効率的な手法を提案する。
提案手法は, モデル動作と人間の仕様との整合性を大幅に向上させる。
論文 参考訳(メタデータ) (2025-12-26T11:11:25Z) - RoleRMBench & RoleRM: Towards Reward Modeling for Profile-Based Role Play in Dialogue Systems [85.16327248973387]
継続的インシシット優先(CIP)で訓練された報酬モデルであるRoleRMを開発する。
RoleRMは、オープンソースの強力な報酬モデルとクローズドな報酬モデルを平均で24%以上超えています。
本研究は,人間中心対話システムにおける主観的アライメントの基礎となる,連続的嗜好表現とアノテーションの整合性の重要性を強調した。
論文 参考訳(メタデータ) (2025-12-11T12:04:46Z) - Uncertainty Quantification for Large Language Model Reward Learning under Heterogeneous Human Feedback [8.538830579425147]
大規模言語(LLM)の整合に使用される推定モデルと統計的報酬モデルについて検討する。
LLMアライメントの重要な構成要素は、人間のフィードバックからの強化学習である。
論文 参考訳(メタデータ) (2025-12-02T20:22:25Z) - Probing Preference Representations: A Multi-Dimensional Evaluation and Analysis Method for Reward Models [63.00458229517523]
本研究は、嗜好表現を探索することで、報酬モデルの評価課題に対処する。
多次元リワードモデルベンチマーク (MRMBench) を構築する。
本稿では,報酬予測時に使用する次元を同定し,その解釈可能性を高める解析手法,推論時探索を提案する。
論文 参考訳(メタデータ) (2025-11-16T05:29:29Z) - Reward Model Interpretability via Optimal and Pessimal Tokens [4.951383975460995]
リワードモデリングは、大きな言語モデルと人間の価値を整合させる上で重要な要素として現れてきた。
本稿では,各語彙空間全体にわたる応答の包括的解析を通じて,報酬モデル解釈可能性に対する新たなアプローチを提案する。
これらのモデルは特定のアイデンティティグループに対するバイアスをエンコードすることができ、これは無害トレーニングの意図しない結果として現れる可能性がある。
論文 参考訳(メタデータ) (2025-06-08T23:56:58Z) - Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。
因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。
そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文 参考訳(メタデータ) (2025-06-06T10:45:42Z) - Rethinking Reward Model Evaluation Through the Lens of Reward Overoptimization [15.729285736811383]
リワードモデルは、人間のフィードバックからの強化学習において重要な役割を果たす。
既存の報酬モデルベンチマークは、最適化されたポリシーの性能と弱い相関を示す。
論文 参考訳(メタデータ) (2025-05-19T06:43:08Z) - Two Minds Better Than One: Collaborative Reward Modeling for LLM Alignment [35.80989342492335]
人間のフィードバックのノイズの多い好みは 報酬の一般化に繋がる
本研究の目的は,報酬モデルにおいて,騒音の嗜好が人間の嗜好とどのように異なるかを明らかにすることである。
我々は、堅牢な選好学習を実現するためのオンラインコラボレーション・リワード・モデリング・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T10:58:20Z) - Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)の整合化に成功している。
我々は、長さバイアス軽減と長さ指示に従うモデルの性能を高めるために、$textbfR$esponse-$textbfc$onditioned $textbfB$radley-$textbfT$erry (Rc-BT)モデルを導入する。
また、報酬モデルと直接ポリシー最適化のためにRc-BTモデルを利用するRc-RMおよびRc-DPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-02T14:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。