論文の概要: Efficient Bayesian Inference from Noisy Pairwise Comparisons
- arxiv url: http://arxiv.org/abs/2510.09333v1
- Date: Fri, 10 Oct 2025 12:37:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.992192
- Title: Efficient Bayesian Inference from Noisy Pairwise Comparisons
- Title(参考訳): 雑音のペアワイズ比較による効率よいベイズ推定
- Authors: Till Aczel, Lucas Theis, Wattenhofer Roger,
- Abstract要約: Bradley-Terry ベースの手法では、比較結果から項目スコアを更新するが、既存の手法ではレーダの変動を無視するか、収束保証の欠如を無視する。
ベイズ的なBradley-Terry型であるBBQを導入し、レーダの品質、重み付け、信頼できない参加者の排除を明確にモデル化する。
実験の結果、BBQはより早く収束し、よく校正された不確実性推定を行い、より堅牢で解釈可能なランキングを得ることが示された。
- 参考スコア(独自算出の注目度): 7.5294643377975765
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Evaluating generative models is challenging because standard metrics often fail to reflect human preferences. Human evaluations are more reliable but costly and noisy, as participants vary in expertise, attention, and diligence. Pairwise comparisons improve consistency, yet aggregating them into overall quality scores requires careful modeling. Bradley-Terry-based methods update item scores from comparisons, but existing approaches either ignore rater variability or lack convergence guarantees, limiting robustness and interpretability. We introduce BBQ, a Bayesian Bradley-Terry variant that explicitly models rater quality, downweighting or removing unreliable participants, and provides guaranteed monotonic likelihood convergence through an Expectation-Maximization algorithm. Empirical results show that BBQ achieves faster convergence, well-calibrated uncertainty estimates, and more robust, interpretable rankings compared to baseline Bradley-Terry models, even with noisy or crowdsourced raters. This framework enables more reliable and cost-effective human evaluation of generative models.
- Abstract(参考訳): 標準的なメトリクスは人間の好みを反映しないことが多いため、生成モデルを評価することは難しい。
人間の評価は信頼性が高いが、参加者は専門性、注意力、勤勉性によって異なるため、費用がかかる。
ペアワイズ比較は一貫性を向上させるが、全体的な品質スコアにそれらを集約するには、慎重にモデリングする必要がある。
Bradley-Terry ベースの手法では、比較結果から項目スコアを更新するが、既存の手法ではレーダの変動や収束保証の欠如を無視し、堅牢性と解釈可能性を制限する。
ベイズ型Bradley-Terry変種であるBBQを導入し、レーダの品質を明示的にモデル化し、信頼できない参加者を減らし、あるいは除去し、期待-最大化アルゴリズムによって保証された単調な収束を与える。
実験の結果,BBQは,ノイズやクラウドソースのレーダであっても,ベースラインのBradley-Terryモデルと比較して,より早く収束し,よく校正された不確実性推定,より堅牢で解釈可能なランク付けを実現していることがわかった。
このフレームワークは、より信頼性が高くコスト効率の良い生成モデルの人的評価を可能にする。
関連論文リスト
- UniCBE: An Uniformity-driven Comparing Based Evaluation Framework with Unified Multi-Objective Optimization [19.673388630963807]
統一統一性駆動型CBEフレームワークUniCBEを提案する。
AlpacaEvalベンチマークでは、UniCBEは評価予算の17%以上を削減し、Pearsonと地上の真実との相関は0.995を超えている。
新しいモデルが継続的に導入されるシナリオでは、UniCBEは評価コストの50%以上を節約できる。
論文 参考訳(メタデータ) (2025-02-17T05:28:12Z) - Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback [64.67540769692074]
人間のフィードバックからの強化学習など、アライメント技術で微調整された大規模言語モデル(LLM)は、これまでで最も有能なAIシステムの開発に役立っている。
マージンマッチング選好最適化(MMPO)と呼ばれる手法を導入し、相対的な品質マージンを最適化し、LLMポリシーと報酬モデルを改善する。
人間とAIの両方のフィードバックデータによる実験によると、MMPOはMT-benchやRewardBenchといった一般的なベンチマークにおいて、ベースラインメソッドよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-10-04T04:56:11Z) - Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。
本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。
また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文 参考訳(メタデータ) (2023-10-09T11:44:50Z) - Probabilistic Precision and Recall Towards Reliable Evaluation of
Generative Models [7.770029179741429]
問題に対処する確率論的アプローチに基づいて,P-precision and P-recall (PP&PR)を提案する。
我々のPP&PRは、既存の指標よりも忠実度と多様性を比較するための信頼性の高い見積もりを提供することを示す。
論文 参考訳(メタデータ) (2023-09-04T13:19:17Z) - On Uncertainty Calibration and Selective Generation in Probabilistic
Neural Summarization: A Benchmark Study [14.041071717005362]
要約のための最新のディープモデルは、優れたベンチマーク性能を得るが、誤校正された予測の不確実性を生成する傾向にある。
これは、低品質の予測に高い信頼性を割り当て、現実世界のアプリケーションにおける信頼性と信頼性を損なうことを意味する。
確率的深層学習法は誤校正問題の一般的な解法であるが, 複雑な自己回帰的要約タスクにおける相対的有効性はよく理解されていない。
論文 参考訳(メタデータ) (2023-04-17T23:06:28Z) - Restricted Bernoulli Matrix Factorization: Balancing the trade-off
between prediction accuracy and coverage in classification based
collaborative filtering [45.335821132209766]
本稿では,Restricted Bernoulli Matrix Factorization (ResBeMF) を提案する。
提案モデルでは,他のレコメンデーションモデルと比較して,品質指標のバランスが良好である。
論文 参考訳(メタデータ) (2022-10-05T13:48:19Z) - Rethinking Missing Data: Aleatoric Uncertainty-Aware Recommendation [59.500347564280204]
本稿では, Aleatoric Uncertainty-aware Recommendation (AUR) フレームワークを提案する。
AURは、新しい不確実性推定器と通常のレコメンデータモデルで構成されている。
誤ラベルの可能性がペアの可能性を反映しているため、AURは不確実性に応じてレコメンデーションを行う。
論文 参考訳(メタデータ) (2022-09-22T04:32:51Z) - A Study on Mitigating Hard Boundaries of Decision-Tree-based Uncertainty
Estimates for AI Models [0.0]
不確実性ラッパーは、入力品質に関連する不確実性をクラスタ化するための決定木アプローチを使用し、異なる不確実性クラスタに厳密に入力を割り当てる。
我々の目標は、解釈可能性、ランタイムの複雑さ、予測性能を維持しながら、ハードな決定境界を緩和するアプローチに置き換えることです。
論文 参考訳(メタデータ) (2022-01-10T10:29:12Z) - Efficient Ensemble Model Generation for Uncertainty Estimation with
Bayesian Approximation in Segmentation [74.06904875527556]
アンサンブルセグメンテーションモデルを構築するための汎用的で効率的なセグメンテーションフレームワークを提案する。
提案手法では,層選択法を用いて効率よくアンサンブルモデルを生成することができる。
また,新たな画素単位の不確実性損失を考案し,予測性能を向上する。
論文 参考訳(メタデータ) (2020-05-21T16:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。