論文の概要: Variance-aware Reward Modeling with Anchor Guidance
- arxiv url: http://arxiv.org/abs/2605.11865v1
- Date: Tue, 12 May 2026 09:46:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.768577
- Title: Variance-aware Reward Modeling with Anchor Guidance
- Title(参考訳): アンカー誘導による変数認識リワードモデリング
- Authors: Shuxing Fang, Ruijian Han, Liangyu Zhang, Fan Zhou,
- Abstract要約: 非識別性を解決するフレームワークとして,アンカー誘導型分散認識リワードモデリングを提案する。
シミュレーション研究と4つの実世界の発散予測データセットを通して,提案手法は報酬モデリング性能を継続的に改善する。
- 参考スコア(独自算出の注目度): 10.561814492691534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard Bradley--Terry (BT) reward models are limited when human preferences are pluralistic. Although soft preference labels preserve disagreement information, BT can only express it by shrinking reward margins. Gaussian reward models provide an alternative by jointly predicting a reward mean and a reward variance, but suffer from a fundamental non-identifiability from pairwise preferences alone. We propose Anchor-guided Variance-aware Reward Modeling, a framework that resolves this non-identifiability by augmenting preference data with two coarse response-level anchor labels. Building on this, we prove that two anchors are sufficient for identification, develop a joint training objective and establish a non-asymptotic convergence rate for both the estimated reward mean and variance functions. Across simulation studies and four real-world diverging-preference datasets, our method consistently improves reward modeling performance and downstream RLHF, including PPO training and best-of-$N$ selection.
- Abstract(参考訳): 標準ブラッドリー-テリー(BT)報酬モデルは、人間の嗜好が多元的である場合に制限される。
ソフトな選好ラベルは不一致情報を保持するが、BTは報酬マージンを縮小することでのみ表現できる。
ガウスの報酬モデルは、報酬平均と報酬分散を共同で予測することで代替手段を提供するが、ペアの選好だけでは基本的な非識別性に悩まされる。
Anchor-guided Variance-aware Reward Modelingは、2つの粗い応答レベルのアンカーラベルで好みデータを増やすことで、この非識別性を解消するフレームワークである。
これに基づいて、2つのアンカーが同定し、共同訓練目標を策定し、推定された報酬平均と分散関数の両方に対する漸近収束率を確立するのに十分であることを示す。
PPOトレーニングやベスト・オブ・N$選択など,シミュレーション研究と4つの実世界の変動予測データセットを通じて,報酬モデリング性能と下流RLHFを継続的に改善する。
関連論文リスト
- Multi-dimensional Preference Alignment by Conditioning Reward Itself [32.33870784484853]
Multi Reward Conditional DPOは、非絡み合いのBradley-Terry目標を導入することで、報酬競合を解決する。
安定1.5とSDXLの実験は、MCDPOがベンチマーク上で優れたパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-12-11T02:44:31Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [90.15024547673785]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Rethinking Bradley-Terry Models in Preference-Based Reward Modeling: Foundations, Theory, and Alternatives [14.401557416713315]
報奨モデルにおけるBradley-Terryモデル(BT)モデルの使用の基礎を再考する。
我々は,下流最適化の観点から,BTモデルが必須選択ではないことを論じる。
既成のバイナリ分類器と互換性のある,単純で簡単な上行法を提案する。
論文 参考訳(メタデータ) (2024-11-07T18:57:03Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。