論文の概要: Calibrated Preference Learning: The Case of Label Ranking
- arxiv url: http://arxiv.org/abs/2605.30447v1
- Date: Thu, 28 May 2026 18:18:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.164001
- Title: Calibrated Preference Learning: The Case of Label Ranking
- Title(参考訳): Calibrated Preference Learning: ラベルランク付けの事例
- Authors: Santo M. A. R. Thies, Viktor Bengs, Timo Kaufmann, Sebastian J. Vollmer, Eyke Hüllermeier,
- Abstract要約: ラベルランキングのキャリブレーションを形式化し、フルランク、サブランク、トップkランキングを含む概念階層を開発する。
人気のあるラベルランキングモデルは、しばしば分類が不十分で、サブランクとトップランクのメトリクスにかなりの違いがある。
我々のフレームワークをRLHF報酬モデルに適用すると、キャリブレーションは強く相関するが、ベンチマークの精度と完全に相関しないことがわかった。
- 参考スコア(独自算出の注目度): 32.50954014661671
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Calibration, the alignment of predicted probabilities with true outcome frequencies, is essential for reliable decision-making. While extensively studied for classification and regression, calibration has not been formally addressed for probabilistic label ranking, where the goal is to predict a distribution over orderings of a label set. Naively treating rankings as classes ignores their structure and fails to capture important modalities such as pairwise and top-k predictions. We formalize calibration for label ranking and develop a hierarchy of notions covering full rankings, sub-rankings, and top-k rankings. We prove that full-rank calibration implies the others but not conversely, and sub-ranking and top-k calibration are incomparable. Empirically, we find popular label ranking models are often poorly calibrated, with substantial differences between sub-ranking and top-k metrics. Applying our framework to RLHF reward models, we find that calibration correlates strongly but not perfectly with benchmark accuracy, suggesting it captures a meaningful quality dimension beyond top-1 accuracy. These findings motivate future work on understanding the downstream effects of miscalibration and developing methods to correct it.
- Abstract(参考訳): キャリブレーション(キャリブレーション)は、予測確率と真の結果頻度のアライメントであり、信頼性の高い意思決定に不可欠である。
分類と回帰について広く研究されているが、キャリブレーションは、ラベル集合の順序よりも分布を予測することを目的として、確率的ラベルランキングのために公式には扱われていない。
クラスとしてのランク付けを内在的に扱うことは、それらの構造を無視し、ペアワイズやトップk予測のような重要なモダリティを捉えるのに失敗する。
ラベルランキングのキャリブレーションを形式化し、フルランク、サブランク、トップkランキングを含む概念階層を開発する。
フルランクキャリブレーションは逆ではなく他のキャリブレーションを意味することを証明し、サブランクとトップkキャリブレーションは相容れない。
経験的に、人気のあるラベルランキングモデルは、しばしばキャリブレーションが不十分であり、サブランクとトップランクのメトリクスにかなりの違いがある。
我々のフレームワークをRLHF報酬モデルに適用すると、キャリブレーションはベンチマークの精度と強く相関するが、完全には相関しないことが分かる。
これらの知見は、誤校正の下流効果を理解し、それを補正する手法を開発するための今後の研究を動機付けている。
関連論文リスト
- Scalable Utility-Aware Multiclass Calibration [53.28176049547449]
ユーティリティキャリブレーション(英: Utility calibration)は、特定のユーティリティ関数に対するキャリブレーション誤差を測定する一般的なフレームワークである。
我々は、このフレームワークが既存のキャリブレーションメトリクスを統一し、再解釈する方法を実証する。
論文 参考訳(メタデータ) (2025-10-29T12:32:14Z) - Practical estimation of the optimal classification error with soft labels and calibration [47.001801756596926]
我々は,ベイズ誤差,最適誤差率を推定するために,ソフトラベルを用いた以前の研究を拡張した。
我々は、破損したソフトラベルによる推定という、より困難な問題に取り組みます。
私たちのメソッドはインスタンスフリーです。つまり、入力インスタンスへのアクセスを前提としません。
論文 参考訳(メタデータ) (2025-05-27T06:04:57Z) - Rethinking Early Stopping: Refine, Then Calibrate [49.966899634962374]
キャリブレーション・リファインメント分解の新規な変分定式化について述べる。
我々は,校正誤差と精錬誤差が訓練中に同時に最小化されないという理論的,実証的な証拠を提供する。
論文 参考訳(メタデータ) (2025-01-31T15:03:54Z) - Calibration of Ordinal Regression Networks [1.2242167538741824]
ディープニューラルネットワークは十分に校正されておらず、しばしば自信過剰な予測を生成する。
オーディナル・アウェア・キャリブレーションを導入した新しい損失関数を提案する。
ソフト・オーディナル・エンコーディングとオーディナル・アウェア・正規化を取り入れ、キャリブレーションと一様性の両方を強制する。
論文 参考訳(メタデータ) (2024-10-21T05:56:31Z) - Calibration by Distribution Matching: Trainable Kernel Calibration
Metrics [56.629245030893685]
カーネルベースのキャリブレーションメトリクスを導入し、分類と回帰の両方で一般的なキャリブレーションの形式を統一・一般化する。
これらの指標は、異なるサンプル推定を許容しており、キャリブレーションの目的を経験的リスク最小化に組み込むのが容易である。
決定タスクにキャリブレーションメトリクスを調整し、正確な損失推定を行ない、後悔しない決定を行うための直感的なメカニズムを提供する。
論文 参考訳(メタデータ) (2023-10-31T06:19:40Z) - Model Calibration in Dense Classification with Adaptive Label
Perturbation [44.62722402349157]
既存の密接な二分分類モデルは、過信される傾向がある。
本稿では,各トレーニング画像に対する独自のラベル摂動レベルを学習する適応ラベル摂動(ASLP)を提案する。
ASLPは、分布内および分布外の両方のデータに基づいて、密度の高い二分分類モデルの校正度を著しく改善することができる。
論文 参考訳(メタデータ) (2023-07-25T14:40:11Z) - Top-label calibration [3.3504365823045044]
マルチクラス分類におけるポストホックキャリブレーションの問題点について検討し,ヒストグラム・バイニングに着目した。
信頼度キャリブレーションという一般的な概念は十分に強くはないことが分かっています -- 意味のある方法でキャリブレーションされていないが、完全に信頼度キャリブレーションされている予測器が存在するのです。
本稿では,信頼度キャリブレーションの直感と単純さを正確に捉えつつも,その欠点に対処する,密接に関連する(微妙に異なる)概念であるトップラベルキャリブレーションを提案する。
論文 参考訳(メタデータ) (2021-07-18T03:27:50Z) - Distribution-free uncertainty quantification for classification under
label shift [105.27463615756733]
2つの経路による分類問題に対する不確実性定量化(UQ)に焦点を当てる。
まず、ラベルシフトはカバレッジとキャリブレーションの低下を示すことでuqを損なうと論じる。
これらの手法を, 理論上, 分散性のない枠組みで検討し, その優れた実用性を示す。
論文 参考訳(メタデータ) (2021-03-04T20:51:03Z) - Unsupervised Calibration under Covariate Shift [92.02278658443166]
ドメインシフト下でのキャリブレーションの問題を導入し、それに対処するための重要サンプリングに基づくアプローチを提案する。
実世界のデータセットと合成データセットの両方において,本手法の有効性を評価し検討した。
論文 参考訳(メタデータ) (2020-06-29T21:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。