論文の概要: Reward Learning From Preference With Ties
- arxiv url: http://arxiv.org/abs/2410.05328v1
- Date: Sat, 5 Oct 2024 21:02:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 19:27:19.025177
- Title: Reward Learning From Preference With Ties
- Title(参考訳): ティーによる選好からのリワード学習
- Authors: Jinsong Liu, Dongdong Ge, Ruihao Zhu,
- Abstract要約: そこで本研究では,ブラドリー・テリーモデル (BTTモデル) の採用について検討する。
我々は, 刺激と応答の真の分布にアクセスできるとしても, 関係を無視することは, 優先強度測定において顕著なバイアスをもたらすことを証明した。
- 参考スコア(独自算出の注目度): 3.1308611970706726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward learning plays a pivotal role in Reinforcement Learning from Human Feedback (RLHF), ensuring the alignment of language models. The Bradley-Terry (BT) model stands as the prevalent choice for capturing human preferences from datasets containing pairs of chosen and rejected responses. In preference modeling, the focus is not on absolute values but rather on the reward difference between chosen and rejected responses, referred to as preference strength. Thus, precise evaluation of preference strength holds paramount importance in preference modeling. However, an easily overlooked factor significantly affecting preference strength measurement is that human attitudes towards two responses may not solely indicate a preference for one over the other and ties are also a common occurrence. To address this, we propose the adoption of the generalized Bradley-Terry model -- the Bradley-Terry model with ties (BTT) -- to accommodate tied preferences, thus leveraging additional information. We prove that even with the access to the true distributions of prompt and response, disregarding ties can lead to a notable bias in preference strength measurement. Comprehensive experiments further validate the advantages of incorporating ties in preference modeling. Notably, fine-tuning with BTT significantly outperforms fine-tuning with BT on synthetic preference datasets with ties, labeled by state-of-the-art open-source LLMs.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF)では、リワード学習が重要な役割を担い、言語モデルの整合性を確保する。
Bradley-Terry(BT)モデルは、選択された応答と拒否された応答のペアを含むデータセットから人間の好みをキャプチャする一般的な選択肢である。
嗜好モデリングでは、絶対値ではなく、選択された反応と拒否された反応の報酬差に焦点を当てている。
したがって、選好強度の正確な評価は、選好モデリングにおいて最重要となる。
しかし,2つの反応に対する人間の態度は,他者に対する嗜好だけでなく,結びつきも一般的である。
そこで本研究では,ブラドリー・テリーモデル (BTTモデル) の採用により,関係付けされた嗜好に適合し,付加的な情報を活用することを提案する。
我々は, 刺激と応答の真の分布にアクセスできるとしても, 関係を無視することは, 優先強度測定において顕著なバイアスをもたらすことを証明した。
総合的な実験は、嗜好モデルに関係を組み込むことの利点をさらに検証する。
特に、BTTによる微調整は、最先端のオープンソースLLMによってラベル付けされた、人工的な嗜好データセットにおけるBTによる微調整よりも大幅に優れています。
関連論文リスト
- Reward Modeling with Ordinal Feedback: Wisdom of the Crowd [9.034189257088762]
人間の好みから報酬モデル(RM)を学ぶことは、大きな言語モデルを調整する上で重要な要素である。
順序フィードバックの下でRMを学習するためのフレームワークを提案する。
我々は,Rademacher複雑性の低減の観点から,順序フィードバックの統計的利点を証明した。
論文 参考訳(メタデータ) (2024-11-19T20:17:04Z) - TODO: Enhancing LLM Alignment with Ternary Preferences [9.31642988745673]
Tie-rank Oriented Bradley-Terry Model (BT) はBradley-Terry Model (BT) の拡張であり、タイを明示的に取り入れている。
そこで本研究では,TOBTの3次ランキングシステムを活用し,優先アライメントを改善する新しいアライメントアルゴリズムであるTie-rank Oriented Direct Preference Optimization (TODO)を提案する。
論文 参考訳(メタデータ) (2024-11-02T14:36:03Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - General Preference Modeling with Preference Representations for Aligning Language Models [51.14207112118503]
我々は、複雑な嗜好構造を効率的に捉えるために、応答を潜在空間に埋め込んだ選好表現学習を導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Deep Bayesian Active Learning for Preference Modeling in Large Language Models [84.817400962262]
本稿では,BAL-PM(Bayesian Active Learner for Preference Modeling)を提案する。
BAL-PMは2つの人気のある人間の嗜好データセットにおいて、好みラベルを33%から68%少なくし、以前のベイズ買収ポリシーを超えている。
我々の実験では、BAL-PMは2つの人気のある人選好データセットにおいて33%から68%の選好ラベルを必要としており、ベイズ買収ポリシーを上回ります。
論文 参考訳(メタデータ) (2024-06-14T13:32:43Z) - Online Self-Preferring Language Models [34.22412851864247]
オンライン自己選好(OSP)言語モデルは、自己生成の応答ペアと自己判断の選好強度から学習する。
OSPは、広く使われている2つの人間の嗜好データセットにおいて、さまざまなメトリクスをまたいだ最先端のアライメント性能を達成する。
論文 参考訳(メタデータ) (2024-05-23T02:13:34Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Models of human preference for learning reward functions [80.39289349661364]
そこで我々は,一対の軌跡区間間の人為的嗜好から報酬関数を学習する。
この仮定に欠陥があることに気付き、各セグメントの後悔が示すように、人間の嗜好をモデル化することを提案する。
提案した後悔の選好モデルは、実際の人間の選好をより良く予測し、また、これらの選好から報酬関数を学習し、より人道的な政策へと導く。
論文 参考訳(メタデータ) (2022-06-05T17:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。