論文の概要: Learning Correlated Reward Models: Statistical Barriers and Opportunities
- arxiv url: http://arxiv.org/abs/2510.15839v1
- Date: Fri, 17 Oct 2025 17:31:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.727727
- Title: Learning Correlated Reward Models: Statistical Barriers and Opportunities
- Title(参考訳): 学習関連リワードモデル:統計的障壁と機会
- Authors: Yeshwanth Cherapanamjeri, Constantinos Daskalakis, Gabriele Farina, Sobhan Mohammadpour,
- Abstract要約: 本稿では,IIA仮定を避けたRUM学習における統計的・計算的課題について検討する。
ほぼ最適性能を持つ統計的・計算効率の高い推定器を考案する。
結果は、学習関連ユーティリティにおける高次嗜好データの利点を強調し、よりきめ細かい人間の嗜好のモデリングを可能にする。
- 参考スコア(独自算出の注目度): 39.27536879408937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Random Utility Models (RUMs) are a classical framework for modeling user preferences and play a key role in reward modeling for Reinforcement Learning from Human Feedback (RLHF). However, a crucial shortcoming of many of these techniques is the Independence of Irrelevant Alternatives (IIA) assumption, which collapses \emph{all} human preferences to a universal underlying utility function, yielding a coarse approximation of the range of human preferences. On the other hand, statistical and computational guarantees for models avoiding this assumption are scarce. In this paper, we investigate the statistical and computational challenges of learning a \emph{correlated} probit model, a fundamental RUM that avoids the IIA assumption. First, we establish that the classical data collection paradigm of pairwise preference data is \emph{fundamentally insufficient} to learn correlational information, explaining the lack of statistical and computational guarantees in this setting. Next, we demonstrate that \emph{best-of-three} preference data provably overcomes these shortcomings, and devise a statistically and computationally efficient estimator with near-optimal performance. These results highlight the benefits of higher-order preference data in learning correlated utilities, allowing for more fine-grained modeling of human preferences. Finally, we validate these theoretical guarantees on several real-world datasets, demonstrating improved personalization of human preferences.
- Abstract(参考訳): ランダムユーティリティモデル(RUM)は、ユーザの嗜好をモデル化し、人間フィードバックからの強化学習(RLHF)の報酬モデリングにおいて重要な役割を果たす古典的なフレームワークである。
しかしながら、これらのテクニックの重大な欠点は、人間の嗜好を普遍的なユーティリティ機能に分解し、人間の嗜好の範囲を粗い近似する、非関連代替物独立(IIA)仮定である。
一方、この仮定を避けたモデルに対する統計的および計算的な保証は少ない。
本稿では,IIA仮定を回避する基礎的RUMであるemph{correlated} Probitモデルを学習する際の統計的および計算的課題について検討する。
まず、一対の選好データの古典的データ収集パラダイムが、相関情報を学習するための「emph{fundamentally enough}」であることを確認し、この設定における統計的および計算的保証の欠如を説明する。
次に,<emph{best-of- three} の選好データがこれらの欠点を確実に克服し,ほぼ最適性能の統計的かつ計算効率の高い推定器を考案する。
これらの結果は、関連ユーティリティの学習における高次嗜好データの利点を強調し、人間の嗜好のよりきめ細かいモデリングを可能にする。
最後に、これらの理論的保証を実世界のいくつかのデータセットで検証し、人間の嗜好のパーソナライゼーションの改善を実証する。
関連論文リスト
- Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。
因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。
そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文 参考訳(メタデータ) (2025-06-06T10:45:42Z) - Detecting Prefix Bias in LLM-based Reward Models [4.596249232904721]
選好データセットに基づいて訓練された報酬モデルにおいて,プレフィックスバイアスを検知し,評価するための新しい手法を提案する。
これらの指標を活用して、人種と性別の異なる嗜好モデルにおける大きなバイアスを明らかにします。
本研究は,公正かつ信頼性の高い報酬モデルを開発する上で,バイアス対応データセットの設計と評価を重要視するものである。
論文 参考訳(メタデータ) (2025-05-13T21:50:03Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Empirical Analysis of Model Selection for Heterogeneous Causal Effect Estimation [24.65301562548798]
本研究では,因果推論におけるモデル選択の問題,特に条件付き平均処理効果(CATE)の推定について検討する。
本研究では,本研究で導入されたサロゲートモデル選択指標と,本研究で導入された新しい指標のベンチマークを行う。
論文 参考訳(メタデータ) (2022-11-03T16:26:06Z) - Measuring Causal Effects of Data Statistics on Language Model's
`Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。
トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。
我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-07-28T17:36:24Z) - A bandit-learning approach to multifidelity approximation [7.960229223744695]
マルチファイデリティ近似は、科学計算とシミュレーションにおいて重要な技術である。
異なる忠実度のデータを利用して正確な推定を行うためのバンディットラーニング手法を紹介します。
論文 参考訳(メタデータ) (2021-03-29T05:29:35Z) - On Statistical Efficiency in Learning [37.08000833961712]
モデルフィッティングとモデル複雑性のバランスをとるためのモデル選択の課題に対処する。
モデルの複雑さを順次拡大し、選択安定性を高め、コストを削減するオンラインアルゴリズムを提案します。
実験の結果, 提案手法は予測能力が高く, 計算コストが比較的低いことがわかった。
論文 参考訳(メタデータ) (2020-12-24T16:08:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。