論文の概要: Fair and Calibrated Toxicity Detection with Robust Training and Abstention
- arxiv url: http://arxiv.org/abs/2605.14074v1
- Date: Wed, 13 May 2026 19:50:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.488221
- Title: Fair and Calibrated Toxicity Detection with Robust Training and Abstention
- Title(参考訳): ロバストトレーニングと回避による公平かつ校正された毒性検出
- Authors: Mokshit Surana,
- Abstract要約: トレーニングタイムの介入やポストホックの安全メカニズムは独立して評価することはできない。
経験的リスク最小化(ERM)、インスタンスレベルの再重み付け、グループDROをこれらの軸で比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fairness in toxicity classification involves three integrated axes: ranking, calibration, and abstention. Training-time interventions and post-hoc safety mechanisms cannot be evaluated independently because the former determines the efficacy of the latter. We compare Empirical Risk Minimization (ERM), instance-level reweighting, and Group DRO across these axes, combined with temperature scaling, confidence-based abstention, and per-identity threshold optimization. Evaluation uses subgroup AUC, BPSN/BNSP AUC, error gaps, and per-subgroup Expected Calibration Error (ECE) with bootstrap CIs ($n = 1000$). We report four findings. (1) Calibration disparity is a hidden fairness violation. ERM has near-perfect aggregate calibration ($0.013$) but is significantly miscalibrated across all identity subgroups ($+0.029$ to $+0.134$). (2) Training interventions reshape rather than eliminate disparity. Reweighted ERM improves ranking (BPSN AUC $+0.06$ to $+0.12$) but worsens the calibration-fairness gap by up to $+0.232$. Group DRO eliminates calibration disparity but only by becoming uniformly miscalibrated globally (ECE $0.118$). (3) Post-hoc methods inherit training failure modes. Temperature scaling fails because miscalibration is non-uniform. Confidence-based abstention works under ERM but breaks under DRO, where the risk-coverage curve rises with deferral. (4) Abstention itself is unfair. Confidence-based deferral helps background content far more than identity-mentioning content. We argue that SRAI fairness requires a multi-axis framework: methods that differ only in aggregate ranking can differ sharply in failure modes that determine real-world harm.
- Abstract(参考訳): 毒性分類の公正性には、ランク付け、校正、棄権の3つの統合された軸が含まれる。
前者が後者の有効性を決定するため、トレーニング時間介入やポストホック安全メカニズムを独立して評価することはできない。
経験的リスク最小化(ERM)、インスタンスレベルの再重み付け、グループDROをこれらの軸で比較し、温度スケーリング、信頼に基づく禁忌、アイデンティティごとのしきい値最適化と組み合わせた。
評価にはサブグループAUC、BPSN/BNSP AUC、エラーギャップ、およびブートストラップCI(n = 1000$)によるサブグループごとのキャリブレーションエラー(ECE)を使用する。
我々は4つの発見を報告した。
1) 校正格差は、隠された公平性違反である。
ERMは、ほぼ完全なアグリゲーションキャリブレーション(0.013ドル)を持っているが、すべてのアイデンティティサブグループ(+0.029ドルから$+0.134ドル)でかなり誤解されている。
2)格差をなくすのではなく、トレーニングの介入が作り直される。
Reweighted ERMはランキング(BPSN AUC $+0.06$から$+0.12$)を改善するが、キャリブレーションとフェアネスのギャップを最大で0.232$まで悪化させる。
グループDROはキャリブレーションの格差をなくすが、全世界で一様に校正される(ECE$0.118$)。
(3) ポストホック法はトレーニング失敗モードを継承する。
温度のスケーリングは、誤校正が一様でないため失敗する。
信頼に基づく禁忌はERMの下では機能するが、DROの下では破壊され、そこではリスク被覆曲線は遅延とともに上昇する。
(4)棄権そのものは不公平である。
信頼に基づく推論は、身元確認コンテンツよりも背景コンテンツに役立っている。
SRAIの公正性には多軸フレームワークが必要である,と我々は主張する。
関連論文リスト
- Discovery of Hidden Miscalibration Regimes [52.452902154360565]
モデルは何らかの入力を体系的に過信し、他人を過信することがある。
対応する誤校正分野を定義し,それを推定するための診断フレームワークを提案する。
提案手法は,入力空間のキャリブレーションを意識した表現を学習し,学習幾何学におけるカーネルの平滑化による符号付き局所的誤校正を推定する。
論文 参考訳(メタデータ) (2026-05-13T13:07:50Z) - PRISM: A Geometric Risk Bound that Decomposes Drift into Scale, Shape, and Head [14.880821907124451]
本研究では,LLMの線形出力ヘッドと背骨のほぼ等尺構造を利用したPRISMを提案する。
境界は変分ランクに調整され、ドリフトを3つの独立測定可能な軸に分解する。
PRISMは、学習後の量子化において平均スピアマン相関が0.820、LoRAを忘れるために0.831の変種をランク付けする。
論文 参考訳(メタデータ) (2026-05-12T06:40:34Z) - Calibration Collapse Under Sycophancy Fine-Tuning: How Reward Hacking Breaks Uncertainty Quantification in LLMs [0.0]
サイコファンの報酬信号が校正を低下させるかどうかを検討する。
3つのモデルに適用されるポストホック行列スケーリングは、ECEを40$--64%$で削減し、精度を1.5$--$$パーセンテージポイントで改善する。
これらの知見は、報酬ハッキングの校正効果を評価する方法論を確立し、校正対応訓練の目的を動機づけるものである。
論文 参考訳(メタデータ) (2026-04-12T11:09:49Z) - Robustness, Cost, and Attack-Surface Concentration in Phishing Detection [0.0]
設計されたウェブサイト上に構築されたフィッシング検出器は、i.d.評価の下でほぼ完璧な精度で機能する。
我々はこのギャップを、明示的な攻撃予算の下で個別の単調な特徴編集をモデル化するコスト認識回避フレームワークを通じて研究する。
論文 参考訳(メタデータ) (2026-03-19T17:53:32Z) - The Confidence Gate Theorem: When Should Ranked Decision Systems Abstain? [0.0]
ランク付けされた決定システムは、いつランク付けされたアウトプットに介入するか、いつ停止するかを判断しなければならない。
信頼に基づく棄権が意思決定の質を単調に改善し、いつ失敗するかを考察する。
論文 参考訳(メタデータ) (2026-03-10T17:44:10Z) - Calibrated Credit Intelligence: Shift-Robust and Fair Risk Scoring with Bayesian Uncertainty and Gradient Boosting [0.0]
Calibrated Credit Intelligence(CCI)は、リスクスコアリングのためのデプロイメント指向のフレームワークである。
CCIは、現実的な展開条件下で、正確で信頼性があり、より公平なリスクスコアを生成する。
論文 参考訳(メタデータ) (2026-03-06T04:40:18Z) - Beyond calibration: estimating the grouping loss of modern neural
networks [68.8204255655161]
適切なスコアリングルール理論は、キャリブレーション損失が与えられた場合、個々のエラーを特徴づける欠片がグループ化損失であることを示している。
視覚およびNLPにおける現代のニューラルネットワークアーキテクチャは、特に分散シフト設定においてグループ化損失を示す。
論文 参考訳(メタデータ) (2022-10-28T07:04:20Z) - Label Distributionally Robust Losses for Multi-class Classification:
Consistency, Robustness and Adaptivity [55.29408396918968]
多クラス分類のためのラベル分布ロバスト(LDR)損失という損失関数群について検討した。
我々の貢献は、多クラス分類のためのLDR損失のトップ$kの一貫性を確立することによって、一貫性と堅牢性の両方を含んでいる。
本稿では,各インスタンスのクラスラベルの雑音度に個別化温度パラメータを自動的に適応させる適応型LDR損失を提案する。
論文 参考訳(メタデータ) (2021-12-30T00:27:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。