論文の概要: Rethinking Bradley-Terry Models in Preference-Based Reward Modeling: Foundations, Theory, and Alternatives
- arxiv url: http://arxiv.org/abs/2411.04991v1
- Date: Thu, 07 Nov 2024 18:57:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:38:53.599125
- Title: Rethinking Bradley-Terry Models in Preference-Based Reward Modeling: Foundations, Theory, and Alternatives
- Title(参考訳): 推論に基づくリワードモデリングにおけるブラッドリー・テリーモデルの再考:基礎,理論,代替
- Authors: Hao Sun, Yunyi Shen, Jean-Francois Ton,
- Abstract要約: 報奨モデルにおけるBradley-Terryモデル(BT)モデルの使用の基礎を再考する。
我々は,下流最適化の観点から,BTモデルが必須選択ではないことを論じる。
既成のバイナリ分類器と互換性のある,単純で簡単な上行法を提案する。
- 参考スコア(独自算出の注目度): 14.401557416713315
- License:
- Abstract: The Bradley-Terry (BT) model is a common and successful practice in reward modeling for Large Language Model (LLM) alignment. However, it remains unclear why this model -- originally developed for multi-player stochastic game matching -- can be adopted to convert pairwise response comparisons to reward values and make predictions. Especially given the fact that only a limited number of prompt-response pairs are sparsely compared with others. In this paper, we first revisit the foundations of using BT models in reward modeling, and establish the convergence rate of BT reward models based on deep neural networks using embeddings, providing a theoretical foundation for their use. Despite theoretically sound, we argue that the BT model is not a necessary choice from the perspective of downstream optimization. This is because a reward model only needs to preserve the correct ranking predictions through a monotonic transformation of the true reward. We highlight the critical concept of order consistency in reward modeling and demonstrate that the BT model possesses this property. Consequently, we propose a simple and straightforward upper-bound algorithm, compatible with off-the-shelf binary classifiers, as an alternative order-consistent reward modeling objective. To offer practical insights, we empirically evaluate the performance of these different reward modeling approaches across more than 12,000 experimental setups, using $6$ base LLMs, $2$ datasets, and diverse annotation designs that vary in quantity, quality, and pairing choices in preference annotations.
- Abstract(参考訳): Bradley-Terry(BT)モデルは、Large Language Model(LLM)アライメントのための報酬モデリングにおいて一般的で成功したプラクティスである。
しかし、このモデル(もともとマルチプレイヤー確率ゲームマッチング用に開発された)が、ペアの応答比較を報酬値に変換し、予測するためになぜ採用できるのかは定かではない。
特に、プロンプト応答対の数が限られているという事実は、他のものとはわずかである。
本稿では,BTモデルを用いた報酬モデルの基礎を再考し,埋め込みを用いたディープニューラルネットワークに基づくBT報酬モデルの収束率を確立し,その利用の理論的基盤を提供する。
理論上は健全であるにもかかわらず、下流最適化の観点からはBTモデルは必須の選択肢ではないと論じる。
これは、報酬モデルが真の報酬の単調変換を通じて正しいランキング予測を保持する必要があるからである。
報酬モデルにおける順序整合性の批判的概念を強調し、BTモデルがこの性質を持つことを示す。
そこで,本研究では,順序整合型報酬モデリングの目的として,既製のバイナリ分類器と互換性のある,単純で簡単な上行法を提案する。
実践的な洞察を得るために、我々は12,000以上の実験的なセットアップにおいて、これらの様々な報酬モデリング手法の性能を経験的に評価し、ベースLLM 6$、データセット 2$、および好みアノテーションにおける量、品質、ペアリングの選択に異なる多様なアノテーション設計を用いて評価した。
関連論文リスト
- Portable Reward Tuning: Towards Reusable Fine-Tuning across Different Pretrained Models [16.005066901515512]
基礎となる基盤モデルは、最終的には新しいものに置き換えられるべきである。
既存の作業は、推論時間チューニングによってこの問題に対処する。
新たな微調整原理であるポータブルリワードチューニングを提案する。
論文 参考訳(メタデータ) (2025-02-18T11:36:33Z) - MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。
本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。
我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-02-14T18:59:51Z) - Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment [51.14207112118503]
我々は、優先順位を効率的に捉えるために、応答を潜在空間に埋め込むアプローチである選好埋め込みを導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Bridging Model-Based Optimization and Generative Modeling via Conservative Fine-Tuning of Diffusion Models [54.132297393662654]
本稿では,RLによる報酬モデルの最適化により,最先端拡散モデルを微調整するハイブリッド手法を提案する。
我々は、報酬モデルの補間能力を活用し、オフラインデータにおいて最良の設計を上回るアプローチの能力を実証する。
論文 参考訳(メタデータ) (2024-05-30T03:57:29Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Modeling Choice via Self-Attention [8.394221523847325]
注意に基づく選択モデルはHalo Multinomial Logit(Halo-MNL)モデルの低最適一般化であることを示す。
また、実データから選択を推定するための最初の現実的な尺度を確立し、既存のモデルの評価を行う。
論文 参考訳(メタデータ) (2023-11-11T11:13:07Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。