論文の概要: Robust AI Evaluation through Maximal Lotteries
- arxiv url: http://arxiv.org/abs/2602.21297v1
- Date: Tue, 24 Feb 2026 19:01:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.574881
- Title: Robust AI Evaluation through Maximal Lotteries
- Title(参考訳): 最大ロテリによるロバストAI評価
- Authors: Hadi Khalaf, Serena L. Wang, Daniel Halpern, Itai Shapira, Flavio du Pin Calmon, Ariel D. Procaccia,
- Abstract要約: 最大抽選は、特定のタスクやユーザサブポピュレーションで著しく過小評価されるモデルに好適であることを示す。
選好データにおいて、最短ケース性能を最適化するロバストな宝くじを導入する。
ランキングから複数の勝者の集合に移行することで、ロバストな宝くじは、補完的なAIシステムのエコシステムへの原則的なステップを提供する。
- 参考スコア(独自算出の注目度): 21.79691527817422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The standard way to evaluate language models on subjective tasks is through pairwise comparisons: an annotator chooses the "better" of two responses to a prompt. Leaderboards aggregate these comparisons into a single Bradley-Terry (BT) ranking, forcing heterogeneous preferences into a total order and violating basic social-choice desiderata. In contrast, social choice theory provides an alternative approach called maximal lotteries, which aggregates pairwise preferences without imposing any assumptions on their structure. However, we show that maximal lotteries are highly sensitive to preference heterogeneity and can favor models that severely underperform on specific tasks or user subpopulations. We introduce robust lotteries that optimize worst-case performance under plausible shifts in the preference data. On large-scale preference datasets, robust lotteries provide more reliable win rate guarantees across the annotator distribution and recover a stable set of top-performing models. By moving from rankings to pluralistic sets of winners, robust lotteries offer a principled step toward an ecosystem of complementary AI systems that serve the full spectrum of human preferences.
- Abstract(参考訳): 主観的タスクにおける言語モデルを評価する標準的な方法は、ペアワイズ比較によって、アノテータはプロンプトに対する2つの応答の"ベタ"を選択する。
リーダーボードはこれらの比較を1つのBradley-Terry(BT)ランキングにまとめ、不均一な選好を全体順序に強制し、基本的な社会的選択を侵害する。
対照的に、社会的選択論は極大宝くじと呼ばれる別のアプローチを提供しており、これは、その構造に仮定を課すことなく、ペアの選好を集約するものである。
しかし,最大抽選は嗜好の不均一性に非常に敏感であり,特定のタスクやユーザサブポピュレーションに大きく劣るモデルが好まれることを示す。
選好データにおいて、最短ケース性能を最適化するロバストな宝くじを導入する。
大規模な選好データセットでは、ロバストな宝くじはアノテータ分布全体にわたってより信頼性の高い利率保証を提供し、安定したトップパフォーマンスモデルの集合を復元する。
ランキングから複数の勝者の集合に移行することで、堅牢な宝くじは、人間の嗜好の完全なスペクトルを提供する補完的なAIシステムのエコシステムへの原則的なステップを提供する。
関連論文リスト
- Robust Preference Alignment via Directional Neighborhood Consensus [13.313830197011983]
本稿では,指向性近傍のコンセンサスを利用したポストホックなトレーニングフリー手法であるRobust Preference Selection(RPS)を紹介する。
RPSは、関連する好みの地域からの複数の応答をサンプリングし、優れた候補プールを作成する。
本研究は, 嗜好整合モデルの信頼性を高めるための, 実用的, 理論的に基礎的なソリューションを提案する。
論文 参考訳(メタデータ) (2025-10-23T12:39:20Z) - Direct Preference Optimization with Unobserved Preference Heterogeneity: The Necessity of Ternary Preferences [14.686788596611246]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値の整合の中心となっている。
最近の選択肢であるDPO(Direct Preference Optimization)は、好みを直接最適化することでパイプラインを単純化している。
生成モデルアライメントにおける多様なユーザに対する公平性とパーソナライズのための理論的かつアルゴリズム的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-17T15:00:40Z) - Beyond RLHF and NLHF: Population-Proportional Alignment under an Axiomatic Framework [7.065259679465175]
評価対象者の嗜好の真の人口分布に比例して、集合的な意見や政策を整合できる新しい嗜好学習フレームワークを開発する。
本研究では,コンドルチェット受賞者の選抜と人口・地域間の整合性を円滑にトレードオフするソフトマックス緩和法を提案する。
論文 参考訳(メタデータ) (2025-06-05T22:15:07Z) - Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks [81.44256822500257]
RLHFは、人工知能システムと人間の好みを結びつける主要なアプローチとして登場した。
RLHFは、複雑なマルチインストラクションタスクに直面すると、不十分なコンプライアンス機能を示す。
本稿では,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:33:11Z) - In-context Ranking Preference Optimization [65.5489745857577]
In-context Ranking Preference Optimization (IRPO) フレームワークを提案する。
IRPOは標準のDPO手法よりも高い性能を示し、LLMと直接文脈内ランキング設定の整合性を強調した。
論文 参考訳(メタデータ) (2025-04-21T23:06:12Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [90.15024547673785]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Jackpot! Alignment as a Maximal Lottery [13.984371386519424]
本稿では,RLHFの代替として,Emphmaximal lotteriesと呼ばれる確率的社会選択規則を提案する。
そこで本研究では,Nash Learning from Human Feedback (NLHF) citemunos2023nash および variants というアライメント手法のファミリーが,最大抽選結果に近似して有益な特性を継承することを示した。
論文 参考訳(メタデータ) (2025-01-31T16:26:28Z) - Multi-Preference Optimization: Generalizing DPO via Set-Level Contrasts [17.243429150450886]
応答集合全体の最適化のために,$textbfMulti-Preference Optimization (MPO)を提案する。
MPOは偏差に基づく重み付けを採用しており、平均的な報酬から最も逸脱する外れ値の応答を強調している。
理論的には、MPOはクエリ毎のレスポンス数に対して$mathcalOleft(frac1sqrtnright)$でアライメントバイアスを低減する。
論文 参考訳(メタデータ) (2024-12-05T21:50:22Z) - Beyond the Binary: Capturing Diverse Preferences With Reward Regularization [15.518838657050173]
この二項選択への依存は、現実のタスクにおいて対象ユーザのより広範囲で集約的な嗜好を捉えるものではない、と我々は主張する。
本稿では、既存の二分選好データセットを合成選好判断で拡張し、潜在的なユーザ不一致を推定する、シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-12-05T02:35:46Z) - ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment [51.14207112118503]
我々は、優先順位を効率的に捉えるために、応答を潜在空間に埋め込むアプローチである選好埋め込みを導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - Not All Preference Pairs Are Created Equal: A Recipe for Annotation-Efficient Iterative Preference Learning [81.69044784288005]
反復的な選好学習には、オンラインの注釈付き選好ラベルが必要である。
コスト効率のよいアノテーションに対する応答対を選択するための戦略について検討する。
論文 参考訳(メタデータ) (2024-06-25T06:49:16Z) - Direct Preference Optimization With Unobserved Preference Heterogeneity: The Necessity of Ternary Preferences [14.686788596611246]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値の整合の中心となっている。
最近の選択肢であるDPO(Direct Preference Optimization)は、好みを直接最適化することでパイプラインを単純化している。
生成モデルアライメントにおける多様なユーザに対する公平性とパーソナライズのための理論的かつアルゴリズム的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T21:25:20Z) - SetRank: A Setwise Bayesian Approach for Collaborative Ranking from
Implicit Feedback [50.13745601531148]
提案手法は,提案システムにおける暗黙的フィードバックの特性に対応するために,協調的ランキング(SeetRank)のためのセッティングワイドベイズ的手法を提案する。
具体的には、SetRankは、新しい設定された選好比較の後方確率を最大化することを目的としている。
また、SetRankの理論解析により、余剰リスクの境界が$sqrtM/N$に比例できることを示す。
論文 参考訳(メタデータ) (2020-02-23T06:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。