論文の概要: Beyond Ordinal Preferences: Why Alignment Needs Cardinal Human Feedback
- arxiv url: http://arxiv.org/abs/2508.08486v1
- Date: Mon, 11 Aug 2025 21:42:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.237677
- Title: Beyond Ordinal Preferences: Why Alignment Needs Cardinal Human Feedback
- Title(参考訳): 日常的嗜好を超えて、アライメントが心のフィードバックを必要とするのはなぜか
- Authors: Parker Whitfill, Stewy Slocum,
- Abstract要約: LLMは嗜好に基づく目的の最適化に依存しており、これらの選好は通常、反応間の順序付き二項選択として引き起こされる。
最近の研究は、ラベルの品質向上や特定のバイアス軽減に重点を置いていますが、より基本的な制限を見つけました。
最適なモデルを選択するには、(単に応答ではなく)エレフモデルよりも好みを回復する必要があることを示し、応答品質に関する基本的なフィードバックのみを特定できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment techniques for LLMs rely on optimizing preference-based objectives -- where these preferences are typically elicited as ordinal, binary choices between responses. Recent work has focused on improving label quality or mitigating particular biases, but we identify a more fundamental limitation: these methods collect the wrong kind of data. We prove an impossibility result: no algorithm relying solely on ordinal comparisons can systematically recover the most preferred model. Intuitively, ordinal data lacks the information needed to resolve tradeoffs -- e.g., fixing a factual error on one prompt versus improving style on another. We show that selecting the optimal model requires recovering preferences over \emph{models} (rather than just responses), which can only be identified given cardinal feedback about response quality. To address this, we collect and publicly release a dataset of 25,000 cardinal judgments using willingness-to-pay elicitations, a well-established tool from experimental economics. Empirically, we find that incorporating cardinal feedback into preference fine-tuning allows models to prioritize high-impact improvements and outperform ordinal-only methods on downstream benchmarks, such as Arena-Hard.
- Abstract(参考訳): LLMのアライメントテクニックは、好みに基づく目的の最適化に依存します -- これらの好みは、通常、反応間の二項選択として引き起こされます。最近の研究は、ラベルの品質向上や特定のバイアス軽減に重点を置いていますが、より根本的な制限を見つけます。これらのメソッドは、間違った種類のデータを収集します。不合理性の結果を証明します。順序比較にのみ依存するアルゴリズムが、最も好まれるモデルを体系的に回復することはできません。直感的には、順序データには、トレードオフを解決するために必要な情報が欠落しています -- 例えば、あるプロンプトの実際のエラーを修正することや、別のスタイルの改善などです。
最適モデルを選択するには、応答品質に関する基本的なフィードバックを与えられた場合にのみ識別できる(単に応答ではなく) \emph{models} よりも好みを回復する必要があることを示す。
これを解決するために、我々は、実験経済学から確立されたツールである、有意と有償のエレキュテーションを用いて、25,000の枢機卿の判断データセットを収集し、公開する。
実験により,アリーナ・ハードなどの下流ベンチマークにおいて,基準フィードバックを好みの微調整に組み込むことで,高インパクト改善や順序のみの手法を優先できることがわかった。
関連論文リスト
- The Limits of Preference Data for Post-Training [27.229909368242517]
この結果から,選好データは基本的に,結果に基づく最適化を著しく制限することがわかった。
我々は、この不合理性を投票理論を用いて形式化し、モデルが問合せに答える方法と、有権者が選択する候補を選択する方法との類似性を引き出す。
このことは、人間のフィードバックを必要とする領域にRLポストトレーニングの成功を拡大するために、基礎となる人間のスコアリングとアルゴリズムの革新が必要であることを示唆している。
論文 参考訳(メタデータ) (2025-05-26T13:26:15Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。