Fugu-MT 論文翻訳(概要): Beyond Ordinal Preferences: Why Alignment Needs Cardinal Human Feedback

論文の概要: Beyond Ordinal Preferences: Why Alignment Needs Cardinal Human Feedback

arxiv url: http://arxiv.org/abs/2508.08486v1
Date: Mon, 11 Aug 2025 21:42:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-13 21:07:34.237677
Title: Beyond Ordinal Preferences: Why Alignment Needs Cardinal Human Feedback
Title（参考訳）: 日常的嗜好を超えて、アライメントが心のフィードバックを必要とするのはなぜか
Authors: Parker Whitfill, Stewy Slocum,
Abstract要約: LLMは嗜好に基づく目的の最適化に依存しており、これらの選好は通常、反応間の順序付き二項選択として引き起こされる。最近の研究は、ラベルの品質向上や特定のバイアス軽減に重点を置いていますが、より基本的な制限を見つけました。最適なモデルを選択するには、(単に応答ではなく)エレフモデルよりも好みを回復する必要があることを示し、応答品質に関する基本的なフィードバックのみを特定できることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Alignment techniques for LLMs rely on optimizing preference-based objectives -- where these preferences are typically elicited as ordinal, binary choices between responses. Recent work has focused on improving label quality or mitigating particular biases, but we identify a more fundamental limitation: these methods collect the wrong kind of data. We prove an impossibility result: no algorithm relying solely on ordinal comparisons can systematically recover the most preferred model. Intuitively, ordinal data lacks the information needed to resolve tradeoffs -- e.g., fixing a factual error on one prompt versus improving style on another. We show that selecting the optimal model requires recovering preferences over \emph{models} (rather than just responses), which can only be identified given cardinal feedback about response quality. To address this, we collect and publicly release a dataset of 25,000 cardinal judgments using willingness-to-pay elicitations, a well-established tool from experimental economics. Empirically, we find that incorporating cardinal feedback into preference fine-tuning allows models to prioritize high-impact improvements and outperform ordinal-only methods on downstream benchmarks, such as Arena-Hard.
Abstract（参考訳）: LLMのアライメントテクニックは、好みに基づく目的の最適化に依存します -- これらの好みは、通常、反応間の二項選択として引き起こされます。最近の研究は、ラベルの品質向上や特定のバイアス軽減に重点を置いていますが、より根本的な制限を見つけます。これらのメソッドは、間違った種類のデータを収集します。不合理性の結果を証明します。順序比較にのみ依存するアルゴリズムが、最も好まれるモデルを体系的に回復することはできません。直感的には、順序データには、トレードオフを解決するために必要な情報が欠落しています -- 例えば、あるプロンプトの実際のエラーを修正することや、別のスタイルの改善などです。最適モデルを選択するには、応答品質に関する基本的なフィードバックを与えられた場合にのみ識別できる(単に応答ではなく) \emph{models} よりも好みを回復する必要があることを示す。これを解決するために、我々は、実験経済学から確立されたツールである、有意と有償のエレキュテーションを用いて、25,000の枢機卿の判断データセットを収集し、公開する。実験により,アリーナ・ハードなどの下流ベンチマークにおいて,基準フィードバックを好みの微調整に組み込むことで,高インパクト改善や順序のみの手法を優先できることがわかった。

論文の概要: Beyond Ordinal Preferences: Why Alignment Needs Cardinal Human Feedback

関連論文リスト