論文の概要: What Does Preference Learning Recover from Pairwise Comparison Data?
- arxiv url: http://arxiv.org/abs/2602.10286v1
- Date: Tue, 10 Feb 2026 20:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.276628
- Title: What Does Preference Learning Recover from Pairwise Comparison Data?
- Title(参考訳): ペアワイズ比較データから優先学習とは何か?
- Authors: Rattana Pukdee, Maria-Florina Balcan, Pradeep Ravikumar,
- Abstract要約: ペアワイズな嗜好学習は機械学習の中心であり、近年は言語モデルと人間の嗜好の整合に応用されている。
典型的なデータセットは三つ子$(x, y+, y-)$で構成されており、レスポンス$y+$はコンテキストに対するレスポンス$y-$よりも好まれる。
我々は、条件付き嗜好分布(CPRD)を通じて符号化される嗜好情報を形式化する。
これらの結果は、好みの学習が実際に回復するものを理解するための、データ中心の基盤を提供する。
- 参考スコア(独自算出の注目度): 39.21477667267936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pairwise preference learning is central to machine learning, with recent applications in aligning language models with human preferences. A typical dataset consists of triplets $(x, y^+, y^-)$, where response $y^+$ is preferred over response $y^-$ for context $x$. The Bradley--Terry (BT) model is the predominant approach, modeling preference probabilities as a function of latent score differences. Standard practice assumes data follows this model and learns the latent scores accordingly. However, real data may violate this assumption, and it remains unclear what BT learning recovers in such cases. Starting from triplet comparison data, we formalize the preference information it encodes through the conditional preference distribution (CPRD). We give precise conditions for when BT is appropriate for modeling the CPRD, and identify factors governing sample efficiency -- namely, margin and connectivity. Together, these results offer a data-centric foundation for understanding what preference learning actually recovers.
- Abstract(参考訳): ペアワイズな嗜好学習は機械学習の中心であり、近年は言語モデルと人間の嗜好の整合に応用されている。
典型的なデータセットは三つ子$(x, y^+, y^-)$から成り、レスポンス$y^+$はコンテキスト$x$に対して$y^-$よりも好まれる。
Bradley-Terry(BT)モデルは、遅延スコア差の関数としての嗜好確率をモデル化する主要なアプローチである。標準慣行では、このモデルに従ってデータを仮定し、遅延スコアを学習する。しかし、実際のデータは、この仮定に違反している可能性がある。
これらの結果は、嗜好学習が実際に回復するものを理解するための、データ中心の基盤を提供する。
関連論文リスト
- Best Policy Learning from Trajectory Preference Feedback [11.896067099790962]
推論ベースの強化学習(PbRL)は、より堅牢な代替手段を提供する。
本稿では, PbRLにおける最適政策識別問題について検討し, 生成モデルの学習後最適化を動機とした。
本稿では,Top-Two Thompson Smplingにヒントを得た新しいアルゴリズムであるPosterior Smpling for Preference Learning(mathsfPSPL$)を提案する。
論文 参考訳(メタデータ) (2025-01-31T03:55:10Z) - Reward Modeling with Ordinal Feedback: Wisdom of the Crowd [9.034189257088762]
人間の好みから報酬モデル(RM)を学ぶことは、大きな言語モデルを調整する上で重要な要素である。
順序フィードバックの下でRMを学習するためのフレームワークを提案する。
我々は,Rademacher複雑性の低減の観点から,順序フィードバックの統計的利点を証明した。
論文 参考訳(メタデータ) (2024-11-19T20:17:04Z) - Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment [51.14207112118503]
我々は、優先順位を効率的に捉えるために、応答を潜在空間に埋め込むアプローチである選好埋め込みを導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - Robust Reinforcement Learning from Corrupted Human Feedback [86.17030012828003]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の嗜好データを調整するための原則化されたフレームワークを提供する。
我々はRLHFのロバストなアプローチ-$R3M$を提案し、これは、潜在的に破損した選好ラベルをスパースアウトリーとしてモデル化する。
大規模言語モデル(LLM)を用いたロボット制御と自然言語生成の実験により、R3M$は、好みデータに対する様々な摂動に対する報酬の堅牢性を向上することを示した。
論文 参考訳(メタデータ) (2024-06-21T18:06:30Z) - Preference Learning Algorithms Do Not Learn Preference Rankings [62.335733662381884]
選好学習は、好ましくない出力よりも、好ましくない出力により高い確率を割り当てるようにモデルを訓練する、という従来の知恵を考察する。
多くの最先端の選好調整モデルでは、一般的な選好データセットでは60%未満のランキング精度が得られている。
論文 参考訳(メタデータ) (2024-05-29T21:29:44Z) - CURATRON: Complete and Robust Preference Data for Rigorous Alignment of Large Language Models [4.9125631769031415]
本稿では,大規模言語モデルと人間の価値観を協調する上での課題について考察する。
本稿では,LLMのレジリエンスを高めるために,堅牢で悪意のあるAIパイプラインデータセットを提案する。
論文 参考訳(メタデータ) (2024-03-05T07:58:12Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。