論文の概要: Investigating the Failure Modes of the AUC metric and Exploring
Alternatives for Evaluating Systems in Safety Critical Applications
- arxiv url: http://arxiv.org/abs/2210.04466v1
- Date: Mon, 10 Oct 2022 07:22:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 14:38:58.368935
- Title: Investigating the Failure Modes of the AUC metric and Exploring
Alternatives for Evaluating Systems in Safety Critical Applications
- Title(参考訳): aucメトリックの故障モードの検討と安全クリティカル応用におけるシステム評価の代替方法の検討
- Authors: Swaroop Mishra, Anjana Arunkumar, Chitta Baral
- Abstract要約: 曲線下面積(AUC)は、モデルの選択的解答能力を評価する指標として用いられる。
例えば、より高いAUCを持つモデルは、選択的な回答を行うのに必ずしも優れているとは限らない。
特定された制限を修正するための3つの代替指標を提案する。
- 参考スコア(独自算出の注目度): 26.128027710026313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing importance of safety requirements associated with the use
of black box models, evaluation of selective answering capability of models has
been critical. Area under the curve (AUC) is used as a metric for this purpose.
We find limitations in AUC; e.g., a model having higher AUC is not always
better in performing selective answering. We propose three alternate metrics
that fix the identified limitations. On experimenting with ten models, our
results using the new metrics show that newer and larger pre-trained models do
not necessarily show better performance in selective answering. We hope our
insights will help develop better models tailored for safety-critical
applications.
- Abstract(参考訳): ブラックボックスモデルの使用に伴う安全性要件の重要性が高まっているため、モデルの選択解答能力の評価が重要になっている。
曲線下面積(AUC)はこの目的のためにメートル法として使用される。
例えば、より高いAUCを持つモデルは、選択的な回答を行う上で常に優れているとは限らない。
特定された制限を修正するための3つの代替指標を提案する。
10種類のモデルを用いて実験した結果, より新しい, より大規模な事前学習モデルでは, 選択解法の性能が必ずしも向上しないことがわかった。
私たちの洞察が、安全クリティカルなアプリケーションに適したモデルの開発に役立つことを願っています。
関連論文リスト
- Unveiling the Potential of Robustness in Evaluating Causal Inference
Models [20.44182029097155]
本稿では,CATE推定器選択のための新しい手法であるdistributally Robust Metric (DRM)を提案する。
DRMは追加モデルに適合する必要をなくし、堅牢なCATE推定器を選択するのに優れる。
DRM法の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2024-02-28T15:12:24Z) - QualEval: Qualitative Evaluation for Model Improvement [86.29905469151566]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - The Misuse of AUC: What High Impact Risk Assessment Gets Wrong [3.244379854721909]
モデル性能指標としてのAUCの現在の使用と理解は、その測定方法の使い方を誤解していると論じる。
AUCを含む現在のモデル検証プラクティスは、堅牢ではなく、しばしば無効である、と結論付けている。
論文 参考訳(メタデータ) (2023-05-29T15:41:00Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Rethinking Missing Data: Aleatoric Uncertainty-Aware Recommendation [59.500347564280204]
本稿では, Aleatoric Uncertainty-aware Recommendation (AUR) フレームワークを提案する。
AURは、新しい不確実性推定器と通常のレコメンデータモデルで構成されている。
誤ラベルの可能性がペアの可能性を反映しているため、AURは不確実性に応じてレコメンデーションを行う。
論文 参考訳(メタデータ) (2022-09-22T04:32:51Z) - Sample-Efficient Reinforcement Learning via Conservative Model-Based
Actor-Critic [67.00475077281212]
モデルベース強化学習アルゴリズムは、モデルフリーのアルゴリズムよりもサンプル効率が高い。
本稿では,精度の高い学習モデルに強く依存することなく,高いサンプル効率を実現する新しい手法を提案する。
CMBACは,いくつかの課題に対して,サンプル効率の点で最先端のアプローチを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-12-16T15:33:11Z) - Who Explains the Explanation? Quantitatively Assessing Feature
Attribution Methods [0.0]
本稿では,説明の忠実度を定量化するための新しい評価指標であるフォーカス(Focus)を提案する。
ランダム化実験によって測定値のロバスト性を示し、次にFocusを用いて3つの一般的な説明可能性手法を評価し比較する。
実験の結果,LRPとGradCAMは一貫性があり信頼性が高いことがわかった。
論文 参考訳(メタデータ) (2021-09-28T07:10:24Z) - EG-Booster: Explanation-Guided Booster of ML Evasion Attacks [3.822543555265593]
本稿では,説明可能なMLの手法を活用して,敵対的事例作成をガイドするEG-Boosterという新しい手法を提案する。
EG-Boosterはアーキテクチャや脅威モデルをモデル化しておらず、以前文献で使われていた様々な距離メトリクスをサポートする。
以上の結果から,EG-Boosterは回避率を著しく向上し,摂動回数の減少が示唆された。
論文 参考訳(メタデータ) (2021-08-31T15:36:16Z) - SafeAMC: Adversarial training for robust modulation recognition models [53.391095789289736]
通信システムには、Deep Neural Networks(DNN)モデルに依存する変調認識など、多くのタスクがある。
これらのモデルは、逆方向の摂動、すなわち、誤分類を引き起こすために作られた知覚不能な付加音に影響を受けやすいことが示されている。
本稿では,自動変調認識モデルのロバスト性を高めるために,逆方向の摂動を伴うモデルを微調整する逆方向トレーニングを提案する。
論文 参考訳(メタデータ) (2021-05-28T11:29:04Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。