論文の概要: When Individually Calibrated Models Become Collectively Miscalibrated
- arxiv url: http://arxiv.org/abs/2605.18858v1
- Date: Thu, 14 May 2026 05:25:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.677392
- Title: When Individually Calibrated Models Become Collectively Miscalibrated
- Title(参考訳): 個別キャリブレーションされたモデルが集団的ミススカリブレーションを受けるとき
- Authors: Zhaohui Wang,
- Abstract要約: 本研究では,個別に調整した予測器が戦略的に相互作用した場合に集団的に誤判定されることを示す。
正の相関関係を持つブライアスコアに基づくアグリゲーションでは、各エージェントの個別に最適なレポートは、正のクラス確率を体系的に過小評価する。
対照的に、VCGベースのアグリゲーションは、限界貢献に報いることでインセンティブを調整し、支配的な戦略的なインセンティブ互換性とほぼ最適のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 3.556355987197792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Probabilistic prediction systems often aggregate probability estimates from multiple models into a single decision. A common assumption is that if each model is individually calibrated, the aggregate prediction will also be well calibrated. We show that this assumption fails in multi-agent settings: individually calibrated predictors can become collectively miscalibrated when their predictions interact strategically, in the game-theoretic sense of Brier-optimal local response, even without deliberate coordination. This phenomenon arises naturally when agents are independently trained on overlapping data. We prove that under Brier-score-based aggregation with positively correlated beliefs, each agent's individually optimal report systematically underestimates the positive-class probability, yielding a Price of Anarchy greater than one whenever Cov(b_i, b_j) > 0. In a canonical setting (n = 5 agents, pairwise correlation = 0.5, base rate = 0.3), the empirically measured PoA in false-negative rate reaches 7.25x. In contrast, VCG-based aggregation aligns incentives by rewarding marginal contribution, achieving dominant-strategy incentive compatibility and near-optimal performance. Experiments on three real-world datasets (NSL-KDD, UNSW-NB15, Credit Card Fraud) show that VCG provides strong robustness while maintaining comparable accuracy. It performs particularly well in data-sparse and adversarial settings, and adaptive weighting further improves performance under distribution shift.
- Abstract(参考訳): 確率予測システムは、複数のモデルからの確率推定を単一の決定に集約することが多い。
一般的な仮定は、各モデルが個別にキャリブレーションされた場合、集合予測も適切にキャリブレーションされるということである。
この仮定はマルチエージェント環境では失敗し,個々のキャリブレーションされた予測器は,意図的な調整を伴わずとも,ゲーム理論上はBrier-Optimalの局所応答が最適でありながら,戦略的に相互に相互作用するときに集団的に誤判定される可能性がある。
この現象は、エージェントが独立して重なり合うデータで訓練されているときに自然に起こる。
正に相関した信念を持つブライアスコアに基づくアグリゲーションの下で、各エージェントの個人的最適レポートは、正のクラス確率を体系的に過小評価し、Cov(b_i, b_j) > 0 のときは常に1以上のアナーキーの価格をもたらすことを証明している。
標準設定(n = 5 エージェント、対相関 = 0.5、ベースレート = 0.3)では、偽陰性率で実験的に測定されたPoAは7.25倍に達する。
対照的に、VCGベースのアグリゲーションは、限界貢献に報いることでインセンティブを調整し、支配的な戦略的なインセンティブ互換性とほぼ最適のパフォーマンスを達成する。
3つの実世界のデータセット(NSL-KDD、UNSW-NB15、Credit Card Fraud)の実験は、VCGが同等の精度を維持しながら強力な堅牢性を提供することを示している。
データスパースや対向的な設定で特によく機能し、適応重み付けにより、分散シフト時のパフォーマンスがさらに向上する。
関連論文リスト
- Multimodal Learning on Low-Quality Data with Conformal Predictive Self-Calibration [72.0672328514289]
マルチモーダル学習は、しばしば低品質データの課題に悩まされる。
コンフォーマル予測自己校正(Conformal Predictive Self-Calibration)と呼ばれる統合フレームワークを提案する。
私たちのフレームワークは、既存の最先端メソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2026-05-05T14:48:52Z) - Learning from Emptiness: De-biasing Listwise Rerankers with Content-Agnostic Probability Calibration [76.08899010904652]
CapCalは、ランキング決定から位置バイアスを機械的に分離する、トレーニング不要のフレームワークである。
シングルパス効率を保ちながら、トレーニング不要の手法で優れた性能を発揮する。
論文 参考訳(メタデータ) (2026-04-11T10:47:22Z) - The Lie of the Average: How Class Incremental Learning Evaluation Deceives You? [48.83567710215299]
クラスインクリメンタルラーニング(CIL)では、モデルが学習済みのクラスを忘れずに、新しいクラスを継続的に学習する必要がある。
我々は、ロバストなCIL評価プロトコルは、性能分布全体を正確に特徴付け、推定するべきであると論じる。
我々は,タスク間類似度を用いて,極端なクラスシーケンスを適応的に識別し,サンプリングする評価プロトコルEDGEを提案する。
論文 参考訳(メタデータ) (2025-09-26T17:00:15Z) - UniCBE: An Uniformity-driven Comparing Based Evaluation Framework with Unified Multi-Objective Optimization [19.673388630963807]
統一統一性駆動型CBEフレームワークUniCBEを提案する。
AlpacaEvalベンチマークでは、UniCBEは評価予算の17%以上を削減し、Pearsonと地上の真実との相関は0.995を超えている。
新しいモデルが継続的に導入されるシナリオでは、UniCBEは評価コストの50%以上を節約できる。
論文 参考訳(メタデータ) (2025-02-17T05:28:12Z) - Probabilistic Scores of Classifiers, Calibration is not Enough [0.32985979395737786]
二項分類タスクでは、確率的予測の正確な表現が実世界の様々な応用に不可欠である。
本研究では,予測スコアと真の確率分布の一致を優先するアプローチを強調した。
その結果,従来の校正基準の限界が明らかとなり,重要な意思決定のための予測モデルの信頼性を損なう可能性が示唆された。
論文 参考訳(メタデータ) (2024-08-06T19:53:00Z) - Assessing Model Generalization in Vicinity [34.86022681163714]
本稿では, 分布外テストセットにおける分類モデルの一般化能力について, 基礎的真理ラベルに依存することなく評価する。
そこで本研究では,各試料の正当性評価に,隣り合う試験試料からの応答を取り入れることを提案する。
結果のスコアは、すべてのテストサンプルで平均化され、モデル精度の全体像が示される。
論文 参考訳(メタデータ) (2024-06-13T15:58:37Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Fair admission risk prediction with proportional multicalibration [0.16249424686052708]
マルチキャリブレーション制約は、柔軟に定義されたサブポピュレーション間のキャリブレーション誤差を補正する。
意思決定者は特定のグループに対するモデル予測を信頼するか、不信にするかを学ぶことができる。
本稿では,グループ間および予測ビン内における正の校正誤差を制限する基準である比例多重校正を提案する。
論文 参考訳(メタデータ) (2022-09-29T08:15:29Z) - Selective Regression Under Fairness Criteria [30.672082160544996]
少数派集団のパフォーマンスは、カバー範囲を減らしながら低下する場合もある。
満足度基準を満たす特徴を構築できれば、そのような望ましくない行動は避けられることを示す。
論文 参考訳(メタデータ) (2021-10-28T19:05:12Z) - Selective Classification Can Magnify Disparities Across Groups [89.14499988774985]
選択的分類は平均的精度を向上させることができるが、既存の精度格差を同時に増大させることができる。
禁忌の増大は、一部のグループでのアキュラシーを減少させることもある。
我々は,グループ間で類似のフルカバレッジ精度を実現する分散ロバストモデルを訓練し,選択分類が各グループを均一に改善することを示す。
論文 参考訳(メタデータ) (2020-10-27T08:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。