論文の概要: Reward Modeling with Ordinal Feedback: Wisdom of the Crowd
- arxiv url: http://arxiv.org/abs/2411.12843v1
- Date: Tue, 19 Nov 2024 20:17:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:13:50.633046
- Title: Reward Modeling with Ordinal Feedback: Wisdom of the Crowd
- Title(参考訳): 正規フィードバックを用いたリワードモデリング:群集の知恵
- Authors: Shang Liu, Yu Pan, Guanting Chen, Xiaocheng Li,
- Abstract要約: 人間の好みから報酬モデル(RM)を学ぶことは、大きな言語モデルを調整する上で重要な要素である。
順序フィードバックの下でRMを学習するためのフレームワークを提案する。
我々は,Rademacher複雑性の低減の観点から,順序フィードバックの統計的利点を証明した。
- 参考スコア(独自算出の注目度): 9.034189257088762
- License:
- Abstract: Learning a reward model (RM) from human preferences has been an important component in aligning large language models (LLMs). The canonical setup of learning RMs from pairwise preference data is rooted in the classic Bradley-Terry (BT) model that accepts binary feedback, i.e., the label being either Response 1 is better than Response 2, or the opposite. Such a setup inevitably discards potentially useful samples (such as "tied" between the two responses) and loses more fine-grained information (such as "slightly better"). In this paper, we propose a framework for learning RMs under ordinal feedback which generalizes the case of binary preference feedback to any arbitrary granularity. Specifically, we first identify a marginal unbiasedness condition, which generalizes the assumption of the BT model in the existing binary feedback setting. The condition validates itself via the sociological concept of the wisdom of the crowd. Under the condition, we develop a natural probability model for pairwise preference data under ordinal feedback and analyze its properties. We prove the statistical benefits of ordinal feedback in terms of reducing the Rademacher complexity compared to the case of binary feedback. The proposed learning objective and the theory also extend to hinge loss and direct policy optimization (DPO). In particular, the theoretical analysis may be of independent interest when applying to a seemingly unrelated problem of knowledge distillation to interpret the bias-variance trade-off therein. The framework also sheds light on writing guidance for human annotators. Our numerical experiments validate that fine-grained feedback leads to better reward learning for both in-distribution and out-of-distribution settings. Further experiments show that incorporating a certain proportion of samples with tied preference boosts RM learning.
- Abstract(参考訳): 人間の好みから報酬モデル(RM)を学ぶことは、大きな言語モデル(LLM)を調整する上で重要な要素である。
一対の選好データからRMを学習する標準的な設定は、バイナリフィードバックを受け入れる古典的なBradley-Terry(BT)モデルに根ざしている。
このようなセットアップは、潜在的に有用なサンプル(2つのレスポンス間の"タイド"など)を必然的に破棄し、よりきめ細かい情報("slightly better"など)を失う。
本稿では,任意の粒度に二分選好フィードバックのケースを一般化した順序フィードバックに基づくRMの学習フレームワークを提案する。
具体的には、まず、既存のバイナリフィードバック設定におけるBTモデルの仮定を一般化する残差不偏性条件を同定する。
この条件は、群衆の知恵という社会学的概念によって検証される。
この条件下では、順序的フィードバックの下でペアの選好データに対する自然な確率モデルを構築し、その特性を解析する。
本稿では,2次フィードバックと比較してRadecherの複雑性を低減させる方法として,順序フィードバックの統計的利点を実証する。
提案した学習目標と理論は、ヒンジ損失と直接ポリシー最適化(DPO)にも拡張される。
特に、理論解析は、そのバイアス分散トレードオフを解釈するために、知識蒸留の一見無関係な問題に適用する際に、独立した関心を持つかもしれない。
このフレームワークは、人間のアノテータのためのガイダンスを書くことにも光を当てている。
数値実験により, 粒度の細かいフィードバックが, 配当条件と配当条件の両方において, より優れた報奨学習につながることが検証された。
さらなる実験により、一定の割合のサンプルを結合した好みで組み込むことで、RM学習が促進されることが示されている。
関連論文リスト
- General Preference Modeling with Preference Representations for Aligning Language Models [51.14207112118503]
我々は、複雑な嗜好構造を効率的に捉えるために、応答を潜在空間に埋め込んだ選好表現学習を導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation [24.374185140811115]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムを人間の価値と整合させる効果的な手法である。
本稿では、人間の嗜好に固有の異質性や、フィードバックの提供における潜在的な戦略的行動から、この問題に対処することに焦点を当てる。
本研究では, 個人化に基づく手法と集約に基づく手法の2つの枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-30T23:57:23Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Rethinking Missing Data: Aleatoric Uncertainty-Aware Recommendation [59.500347564280204]
本稿では, Aleatoric Uncertainty-aware Recommendation (AUR) フレームワークを提案する。
AURは、新しい不確実性推定器と通常のレコメンデータモデルで構成されている。
誤ラベルの可能性がペアの可能性を反映しているため、AURは不確実性に応じてレコメンデーションを行う。
論文 参考訳(メタデータ) (2022-09-22T04:32:51Z) - Bilateral Self-unbiased Learning from Biased Implicit Feedback [10.690479112143658]
バイラテラル・セルフ・アンバイアスド・レコメンダ(BISER)という,新しいアンバイアスド・レコメンダラー・ラーニング・モデルを提案する。
BISERは、(i)自己逆確率重み付け(SIPW)と(ii)モデル予測における2つの相補的モデル間のギャップを埋める両側非バイアス学習(BU)の2つの重要な構成要素から構成される。
大規模な実験により、BISERは複数のデータセットに対して最先端の非バイアスのレコメンデータモデルより一貫して優れていることが示されている。
論文 参考訳(メタデータ) (2022-07-26T05:17:42Z) - Multiple Robust Learning for Recommendation [13.06593469196849]
推薦システムでは、収集されたデータに様々なバイアスが存在することが一般的な問題である。
本稿では,不偏性を実現するために,複数の候補計算モデルと確率モデルを利用するマルチロバスト (MR) 推定器を提案する。
論文 参考訳(メタデータ) (2022-07-09T13:15:56Z) - Cross Pairwise Ranking for Unbiased Item Recommendation [57.71258289870123]
我々はCPR(Cross Pairwise Ranking)という新しい学習パラダイムを開発する。
CPRは、露出メカニズムを知らずに不偏の推奨を達成する。
理論的には、この方法が学習に対するユーザ/イテムの適合性の影響を相殺することを証明する。
論文 参考訳(メタデータ) (2022-04-26T09:20:27Z) - Debiased Explainable Pairwise Ranking from Implicit Feedback [0.3867363075280543]
BPR(Bayesian Personalized Ranking)に焦点をあてる。
BPRはアウトプットを説明しないブラックボックスモデルであり、ユーザのレコメンデーションに対する信頼を制限する。
本稿では,項目に基づく説明とともにレコメンデーションを生成する新しい説明可能な損失関数と,それに対応する行列分解モデルを提案する。
論文 参考訳(メタデータ) (2021-07-30T17:19:37Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。