論文の概要: Robust AI Evaluation through Maximal Lotteries
- arxiv url: http://arxiv.org/abs/2602.21297v1
- Date: Tue, 24 Feb 2026 19:01:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.574881
- Title: Robust AI Evaluation through Maximal Lotteries
- Title(参考訳): 最大ロテリによるロバストAI評価
- Authors: Hadi Khalaf, Serena L. Wang, Daniel Halpern, Itai Shapira, Flavio du Pin Calmon, Ariel D. Procaccia,
- Abstract要約: 最大抽選は、特定のタスクやユーザサブポピュレーションで著しく過小評価されるモデルに好適であることを示す。
選好データにおいて、最短ケース性能を最適化するロバストな宝くじを導入する。
ランキングから複数の勝者の集合に移行することで、ロバストな宝くじは、補完的なAIシステムのエコシステムへの原則的なステップを提供する。
- 参考スコア(独自算出の注目度): 21.79691527817422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The standard way to evaluate language models on subjective tasks is through pairwise comparisons: an annotator chooses the "better" of two responses to a prompt. Leaderboards aggregate these comparisons into a single Bradley-Terry (BT) ranking, forcing heterogeneous preferences into a total order and violating basic social-choice desiderata. In contrast, social choice theory provides an alternative approach called maximal lotteries, which aggregates pairwise preferences without imposing any assumptions on their structure. However, we show that maximal lotteries are highly sensitive to preference heterogeneity and can favor models that severely underperform on specific tasks or user subpopulations. We introduce robust lotteries that optimize worst-case performance under plausible shifts in the preference data. On large-scale preference datasets, robust lotteries provide more reliable win rate guarantees across the annotator distribution and recover a stable set of top-performing models. By moving from rankings to pluralistic sets of winners, robust lotteries offer a principled step toward an ecosystem of complementary AI systems that serve the full spectrum of human preferences.
- Abstract(参考訳): 主観的タスクにおける言語モデルを評価する標準的な方法は、ペアワイズ比較によって、アノテータはプロンプトに対する2つの応答の"ベタ"を選択する。
リーダーボードはこれらの比較を1つのBradley-Terry(BT)ランキングにまとめ、不均一な選好を全体順序に強制し、基本的な社会的選択を侵害する。
対照的に、社会的選択論は極大宝くじと呼ばれる別のアプローチを提供しており、これは、その構造に仮定を課すことなく、ペアの選好を集約するものである。
しかし,最大抽選は嗜好の不均一性に非常に敏感であり,特定のタスクやユーザサブポピュレーションに大きく劣るモデルが好まれることを示す。
選好データにおいて、最短ケース性能を最適化するロバストな宝くじを導入する。
大規模な選好データセットでは、ロバストな宝くじはアノテータ分布全体にわたってより信頼性の高い利率保証を提供し、安定したトップパフォーマンスモデルの集合を復元する。
ランキングから複数の勝者の集合に移行することで、堅牢な宝くじは、人間の嗜好の完全なスペクトルを提供する補完的なAIシステムのエコシステムへの原則的なステップを提供する。
関連論文リスト
- Beyond RLHF and NLHF: Population-Proportional Alignment under an Axiomatic Framework [7.065259679465175]
評価対象者の嗜好の真の人口分布に比例して、集合的な意見や政策を整合できる新しい嗜好学習フレームワークを開発する。
本研究では,コンドルチェット受賞者の選抜と人口・地域間の整合性を円滑にトレードオフするソフトマックス緩和法を提案する。
論文 参考訳(メタデータ) (2025-06-05T22:15:07Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [90.15024547673785]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Jackpot! Alignment as a Maximal Lottery [13.984371386519424]
本稿では,RLHFの代替として,Emphmaximal lotteriesと呼ばれる確率的社会選択規則を提案する。
そこで本研究では,Nash Learning from Human Feedback (NLHF) citemunos2023nash および variants というアライメント手法のファミリーが,最大抽選結果に近似して有益な特性を継承することを示した。
論文 参考訳(メタデータ) (2025-01-31T16:26:28Z) - Multi-Preference Optimization: Generalizing DPO via Set-Level Contrasts [17.243429150450886]
応答集合全体の最適化のために,$textbfMulti-Preference Optimization (MPO)を提案する。
MPOは偏差に基づく重み付けを採用しており、平均的な報酬から最も逸脱する外れ値の応答を強調している。
理論的には、MPOはクエリ毎のレスポンス数に対して$mathcalOleft(frac1sqrtnright)$でアライメントバイアスを低減する。
論文 参考訳(メタデータ) (2024-12-05T21:50:22Z) - Beyond the Binary: Capturing Diverse Preferences With Reward Regularization [15.518838657050173]
この二項選択への依存は、現実のタスクにおいて対象ユーザのより広範囲で集約的な嗜好を捉えるものではない、と我々は主張する。
本稿では、既存の二分選好データセットを合成選好判断で拡張し、潜在的なユーザ不一致を推定する、シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-12-05T02:35:46Z) - Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment [51.14207112118503]
我々は、優先順位を効率的に捉えるために、応答を潜在空間に埋め込むアプローチである選好埋め込みを導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - Not All Preference Pairs Are Created Equal: A Recipe for Annotation-Efficient Iterative Preference Learning [81.69044784288005]
反復的な選好学習には、オンラインの注釈付き選好ラベルが必要である。
コスト効率のよいアノテーションに対する応答対を選択するための戦略について検討する。
論文 参考訳(メタデータ) (2024-06-25T06:49:16Z) - Direct Preference Optimization With Unobserved Preference Heterogeneity: The Necessity of Ternary Preferences [14.686788596611246]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値の整合の中心となっている。
最近の選択肢であるDPO(Direct Preference Optimization)は、好みを直接最適化することでパイプラインを単純化している。
生成モデルアライメントにおける多様なユーザに対する公平性とパーソナライズのための理論的かつアルゴリズム的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T21:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。