論文の概要: Beyond Ordinal Preferences: Why Alignment Needs Cardinal Human Feedback
- arxiv url: http://arxiv.org/abs/2508.08486v1
- Date: Mon, 11 Aug 2025 21:42:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.237677
- Title: Beyond Ordinal Preferences: Why Alignment Needs Cardinal Human Feedback
- Title(参考訳): 日常的嗜好を超えて、アライメントが心のフィードバックを必要とするのはなぜか
- Authors: Parker Whitfill, Stewy Slocum,
- Abstract要約: LLMは嗜好に基づく目的の最適化に依存しており、これらの選好は通常、反応間の順序付き二項選択として引き起こされる。
最近の研究は、ラベルの品質向上や特定のバイアス軽減に重点を置いていますが、より基本的な制限を見つけました。
最適なモデルを選択するには、(単に応答ではなく)エレフモデルよりも好みを回復する必要があることを示し、応答品質に関する基本的なフィードバックのみを特定できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment techniques for LLMs rely on optimizing preference-based objectives -- where these preferences are typically elicited as ordinal, binary choices between responses. Recent work has focused on improving label quality or mitigating particular biases, but we identify a more fundamental limitation: these methods collect the wrong kind of data. We prove an impossibility result: no algorithm relying solely on ordinal comparisons can systematically recover the most preferred model. Intuitively, ordinal data lacks the information needed to resolve tradeoffs -- e.g., fixing a factual error on one prompt versus improving style on another. We show that selecting the optimal model requires recovering preferences over \emph{models} (rather than just responses), which can only be identified given cardinal feedback about response quality. To address this, we collect and publicly release a dataset of 25,000 cardinal judgments using willingness-to-pay elicitations, a well-established tool from experimental economics. Empirically, we find that incorporating cardinal feedback into preference fine-tuning allows models to prioritize high-impact improvements and outperform ordinal-only methods on downstream benchmarks, such as Arena-Hard.
- Abstract(参考訳): LLMのアライメントテクニックは、好みに基づく目的の最適化に依存します -- これらの好みは、通常、反応間の二項選択として引き起こされます。最近の研究は、ラベルの品質向上や特定のバイアス軽減に重点を置いていますが、より根本的な制限を見つけます。これらのメソッドは、間違った種類のデータを収集します。不合理性の結果を証明します。順序比較にのみ依存するアルゴリズムが、最も好まれるモデルを体系的に回復することはできません。直感的には、順序データには、トレードオフを解決するために必要な情報が欠落しています -- 例えば、あるプロンプトの実際のエラーを修正することや、別のスタイルの改善などです。
最適モデルを選択するには、応答品質に関する基本的なフィードバックを与えられた場合にのみ識別できる(単に応答ではなく) \emph{models} よりも好みを回復する必要があることを示す。
これを解決するために、我々は、実験経済学から確立されたツールである、有意と有償のエレキュテーションを用いて、25,000の枢機卿の判断データセットを収集し、公開する。
実験により,アリーナ・ハードなどの下流ベンチマークにおいて,基準フィードバックを好みの微調整に組み込むことで,高インパクト改善や順序のみの手法を優先できることがわかった。
関連論文リスト
- Direct Preference Optimization with Rating Information: Practical Algorithms and Provable Gains [67.71020482405343]
評価ギャップの形で追加情報を活用するアルゴリズムを設計する方法について検討する。
精度の高いレーティングギャップ情報が存在する場合,DPOよりも高速な統計的レートを実現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-01-31T08:38:21Z) - The Limits of Preference Data for Post-Training [27.229909368242517]
この結果から,選好データは基本的に,結果に基づく最適化を著しく制限することがわかった。
我々は、この不合理性を投票理論を用いて形式化し、モデルが問合せに答える方法と、有権者が選択する候補を選択する方法との類似性を引き出す。
このことは、人間のフィードバックを必要とする領域にRLポストトレーニングの成功を拡大するために、基礎となる人間のスコアリングとアルゴリズムの革新が必要であることを示唆している。
論文 参考訳(メタデータ) (2025-05-26T13:26:15Z) - Causal LLM Routing: End-to-End Regret Minimization from Observational Data [3.3580884064577616]
LLMルーティングは、クエリ毎に最も適切なモデルを選択することを目的としている。
従来のアプローチでは、メトリクスを最初に予測し、モデルがこれらの見積に基づいて選択される、分離された戦略が一般的だった。
観測データから意思決定の後悔を最小化してルーティングポリシーを学習する因果的エンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T21:34:18Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Geometric-Averaged Preference Optimization for Soft Preference Labels [78.2746007085333]
LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。
本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。
論文 参考訳(メタデータ) (2024-09-10T17:54:28Z) - An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning [70.22819290458581]
人間のフィードバックによる強化学習(RLHF)は、現在の大規模言語モデルパイプラインにおいて広く採用されているアプローチである。
提案手法では,(1)OODを回避するためのオン・ポリシー・クエリと,(2)プライオリティ・クエリの最も情報性の高いデータを選択するためのアクティブ・ラーニングという2つの重要なイノベーションを導入している。
論文 参考訳(メタデータ) (2024-07-02T10:09:19Z) - Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Optimizer's Information Criterion: Dissecting and Correcting Bias in Data-Driven Optimization [16.57676001669012]
データ駆動最適化では、得られた決定のサンプル性能は通常、真の性能に対して楽観的なバイアスを生じさせる。
クロスバリデーションのような、このバイアスを修正するための一般的なテクニックは、追加の最適化問題を繰り返し解決する必要があるため、コストがかかる。
我々は一階偏差を直接近似する一般バイアス補正手法を開発し、追加の最適化問題を解く必要はない。
論文 参考訳(メタデータ) (2023-06-16T07:07:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。