論文の概要: STABLEVAL: Disagreement-Aware and Stable Evaluation of AI Systems
- arxiv url: http://arxiv.org/abs/2605.02122v1
- Date: Mon, 04 May 2026 01:03:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.092262
- Title: STABLEVAL: Disagreement-Aware and Stable Evaluation of AI Systems
- Title(参考訳): STABLEVAL:AIシステムの診断・認識・安定性評価
- Authors: Akash Bonagiri, Gerard Janno Anderias, Saee Patil, Angelina Lai, Devang Borkar, Gezheng Kang, Ishant Gandhi, Setareh Rafatirad, Houman Homayoun,
- Abstract要約: 多数決はアノテータの信頼性と項目レベルの曖昧さを捨て、しばしば不安定な比較をもたらす。
本稿では,不一致を考慮した評価フレームワークSTABLEVALを紹介する。
STABLEVALは、安定かつ不確実性を認識したシステム評価のために設計されている。
- 参考スコア(独自算出の注目度): 3.263813419432528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human evaluation remains the primary standard for assessing modern AI systems, yet annotator disagreement, bias, and variability make system rankings fragile under standard majority vote aggregation. Majority vote discards annotator reliability and item-level ambiguity, often yielding unstable comparisons across annotator subsets. We introduce STABLEVAL, a disagreement-aware evaluation framework that models latent item correctness and annotator-specific confusion patterns to produce posterior expected item credit and calibrated agent-level scores. Unlike label-denoising approaches such as Dawid-Skene, STABLEVAL is explicitly designed for stable and uncertainty-aware system evaluation rather than hard label recovery. We formalize ranking stability as a first-class evaluation objective and analyze how aggregation methods preserve or distort underlying annotator behavior. Across controlled synthetic experiments and multiple real-world human-annotated benchmarks, majority vote exhibits increasing score error and ranking instability under annotator heterogeneity and adversarial noise, while STABLEVAL yields more stable and statistically grounded system rankings. These results demonstrate that modeling disagreement is essential for robust and reproducible AI evaluation.
- Abstract(参考訳): 現代のAIシステムを評価する上で、人間の評価は依然として主要な標準であり続けているが、アノテータの不一致、偏見、可変性は、標準的な多数決の集計の下でシステムのランキングが脆弱である。
多数決はアノテータの信頼性と項目レベルの曖昧さを捨て、しばしばアノテータのサブセット間で不安定な比較をもたらす。
遅延項目の正しさとアノテータ固有の混乱パターンをモデル化し、後続項目のクレジットと校正エージェントレベルのスコアを生成する不一致評価フレームワークSTABLEVALを紹介する。
Dawid-Skeneのようなラベルをデノベートするアプローチとは異なり、STABLEVALはハードラベルリカバリではなく、安定かつ不確実性を意識したシステム評価のために設計されている。
我々はランキング安定性を第一級評価目標として定式化し、アノテータの動作の保存や歪曲方法を分析する。
制御された合成実験と、複数の実世界の人間による注釈付きベンチマークにおいて、多数決はアノテータの不均一性と反対ノイズの下でスコアエラーとランキングの不安定性を増大させ、一方STABLEVALはより安定的で統計的に基礎付けられたシステムランキングを得る。
これらの結果は、モデリングの不一致が堅牢で再現可能なAI評価に不可欠であることを示す。
関連論文リスト
- Towards More Standardized AI Evaluation: From Models to Agents [0.0]
AIシステムが静的モデルから複雑なツール使用エージェントへと進化するにつれて、評価はコアコントロール機能となる。
ほとんどの評価プラクティスは、モデル中心の時代から受け継がれた仮定に固定されているままです。
本稿では,このようなアプローチが,システム行動の照らし方よりもあいまいになってきていることを論じる。
論文 参考訳(メタデータ) (2026-02-20T06:54:44Z) - The Emergence of Lab-Driven Alignment Signatures: A Psychometric Framework for Auditing Latent Bias and Compounding Risk in Generative AI [0.0]
本稿では,不確実性の下での潜在特性推定を定量化する新しい監査フレームワークを提案する。
この研究は最適化バイアス、Sycophancy、Status-Quo Legitimizationを含む9つの次元にわたる主要なモデルを監査している。
論文 参考訳(メタデータ) (2026-02-19T06:56:01Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - SVeritas: Benchmark for Robust Speaker Verification under Diverse Conditions [54.34001921326444]
話者検証(SV)モデルは、セキュリティ、パーソナライゼーション、アクセス制御システムにますます統合されている。
既存のベンチマークでは、これらの条件のサブセットのみを評価しており、他は完全に欠落している。
SVeritasは、録音時間、自発性、コンテンツ、ノイズ、マイクロホン距離、残響、チャンネルミスマッチ、オーディオ帯域幅、コーデック、話者年齢、スプーフィングおよび敵攻撃に対する感受性などのストレス下でのSVシステムの評価を行う総合的な話者検証タスクベンチマークスイートである。
論文 参考訳(メタデータ) (2025-09-21T14:11:16Z) - UDA: Unsupervised Debiasing Alignment for Pair-wise LLM-as-a-Judge [23.497453639857852]
本研究では,エロ評価システムを動的に調整することで,不一致を解消する枠組みであるUDAを提案する。
UDAは、すべての裁判官のエロ軌道間の分散を最小限にすることを目的として、完全に教師なしの方法で運営されている。
実験の結果、UDA は Judge の標準偏差を 63.4% まで減少させ、人間の判断との平均的相関を 24.7% 向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-13T11:41:01Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。