論文の概要: An Empirical Study of Accuracy, Fairness, Explainability, Distributional
Robustness, and Adversarial Robustness
- arxiv url: http://arxiv.org/abs/2109.14653v1
- Date: Wed, 29 Sep 2021 18:21:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 14:40:13.286513
- Title: An Empirical Study of Accuracy, Fairness, Explainability, Distributional
Robustness, and Adversarial Robustness
- Title(参考訳): 精度・公正性・説明可能性・分布ロバスト性・対向ロバスト性に関する実証的研究
- Authors: Moninder Singh, Gevorg Ghalachyan, Kush R. Varshney, Reginald E.
Bryant
- Abstract要約: 本稿では、これらの次元に沿った様々な指標のモデルタイプを複数のデータセットで評価するための実証的研究について述べる。
以上の結果から,特定のモデルタイプがすべての次元で良好に機能することが示され,複数の次元に沿って評価されたモデルを選択する際のトレードオフの種類が示される。
- 参考スコア(独自算出の注目度): 16.677541058361218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To ensure trust in AI models, it is becoming increasingly apparent that
evaluation of models must be extended beyond traditional performance metrics,
like accuracy, to other dimensions, such as fairness, explainability,
adversarial robustness, and distribution shift. We describe an empirical study
to evaluate multiple model types on various metrics along these dimensions on
several datasets. Our results show that no particular model type performs well
on all dimensions, and demonstrate the kinds of trade-offs involved in
selecting models evaluated along multiple dimensions.
- Abstract(参考訳): aiモデルの信頼を確保するために、モデルの評価が、正確性のような従来のパフォーマンス指標を超えて、公正性、説明可能性、敵対的ロバスト性、分散シフトといった他の次元に拡張されなければならないことがますます明らかになっている。
本稿では、これらの次元に沿った様々な指標のモデルタイプを複数のデータセットで評価するための実証的研究について述べる。
その結果,すべての次元において特定のモデルタイプがうまく機能せず,複数の次元で評価されたモデルの選択に関わるトレードオフの種類を示すことができた。
関連論文リスト
- Assessing Robustness of Machine Learning Models using Covariate Perturbations [0.6749750044497732]
本稿では,機械学習モデルの堅牢性を評価するための包括的フレームワークを提案する。
本研究では、ロバスト性の評価とモデル予測への影響を検討するために、様々な摂動戦略を検討する。
モデル間のロバスト性の比較、モデルの不安定性同定、モデルのロバスト性向上におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-02T14:41:36Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - An Empirical Investigation into Benchmarking Model Multiplicity for
Trustworthy Machine Learning: A Case Study on Image Classification [0.8702432681310401]
本稿では,モデル設計の様々な側面にまたがる多重性の1ストップ実験ベンチマークを提案する。
また,マルチプライシティシート(multiplicity sheets)と呼ばれるフレームワークを開発し,様々なシナリオにおけるマルチプライシティのベンチマークを行う。
モデル選択中に追加仕様を適用した後でも,マルチプライシティがディープラーニングモデルに持続することを示す。
論文 参考訳(メタデータ) (2023-11-24T22:30:38Z) - Think Twice: Measuring the Efficiency of Eliminating Prediction
Shortcuts of Question Answering Models [3.9052860539161918]
そこで本研究では,任意の特徴量に対するモデルのスケール依存度を簡易に測定する手法を提案する。
質問回答(QA: Question Answering)における各種事前学習モデルとデバイアス法について、既知の予測バイアスと新たに発見された予測バイアスの集合に対するロバスト性を評価する。
既存のデバイアス法は、選択された刺激的特徴への依存を軽減することができるが、これらの手法のOOD性能向上は、偏りのある特徴への依存を緩和することによって説明できない。
論文 参考訳(メタデータ) (2023-05-11T14:35:00Z) - Challenges to Evaluating the Generalization of Coreference Resolution Models: A Measurement Modeling Perspective [69.50044040291847]
本稿では, マルチデータセット評価が, 正確に測定されている要因を混同するリスクについて述べる。
これにより、これらの評価からより一般化可能な結論を引き出すのが難しくなる。
論文 参考訳(メタデータ) (2023-03-16T05:32:02Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Trusted Multi-View Classification [76.73585034192894]
本稿では,信頼された多視点分類と呼ばれる新しい多視点分類手法を提案する。
さまざまなビューをエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
提案アルゴリズムは,分類信頼性とロバスト性の両方を促進するために,複数のビューを併用する。
論文 参考訳(メタデータ) (2021-02-03T13:30:26Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。