論文の概要: An Empirical Study of Accuracy, Fairness, Explainability, Distributional
Robustness, and Adversarial Robustness
- arxiv url: http://arxiv.org/abs/2109.14653v1
- Date: Wed, 29 Sep 2021 18:21:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 14:40:13.286513
- Title: An Empirical Study of Accuracy, Fairness, Explainability, Distributional
Robustness, and Adversarial Robustness
- Title(参考訳): 精度・公正性・説明可能性・分布ロバスト性・対向ロバスト性に関する実証的研究
- Authors: Moninder Singh, Gevorg Ghalachyan, Kush R. Varshney, Reginald E.
Bryant
- Abstract要約: 本稿では、これらの次元に沿った様々な指標のモデルタイプを複数のデータセットで評価するための実証的研究について述べる。
以上の結果から,特定のモデルタイプがすべての次元で良好に機能することが示され,複数の次元に沿って評価されたモデルを選択する際のトレードオフの種類が示される。
- 参考スコア(独自算出の注目度): 16.677541058361218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To ensure trust in AI models, it is becoming increasingly apparent that
evaluation of models must be extended beyond traditional performance metrics,
like accuracy, to other dimensions, such as fairness, explainability,
adversarial robustness, and distribution shift. We describe an empirical study
to evaluate multiple model types on various metrics along these dimensions on
several datasets. Our results show that no particular model type performs well
on all dimensions, and demonstrate the kinds of trade-offs involved in
selecting models evaluated along multiple dimensions.
- Abstract(参考訳): aiモデルの信頼を確保するために、モデルの評価が、正確性のような従来のパフォーマンス指標を超えて、公正性、説明可能性、敵対的ロバスト性、分散シフトといった他の次元に拡張されなければならないことがますます明らかになっている。
本稿では、これらの次元に沿った様々な指標のモデルタイプを複数のデータセットで評価するための実証的研究について述べる。
その結果,すべての次元において特定のモデルタイプがうまく機能せず,複数の次元で評価されたモデルの選択に関わるトレードオフの種類を示すことができた。
関連論文リスト
- Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - An Empirical Investigation into Benchmarking Model Multiplicity for
Trustworthy Machine Learning: A Case Study on Image Classification [0.8702432681310401]
本稿では,モデル設計の様々な側面にまたがる多重性の1ストップ実験ベンチマークを提案する。
また,マルチプライシティシート(multiplicity sheets)と呼ばれるフレームワークを開発し,様々なシナリオにおけるマルチプライシティのベンチマークを行う。
モデル選択中に追加仕様を適用した後でも,マルチプライシティがディープラーニングモデルに持続することを示す。
論文 参考訳(メタデータ) (2023-11-24T22:30:38Z) - Think Twice: Measuring the Efficiency of Eliminating Prediction
Shortcuts of Question Answering Models [3.9052860539161918]
そこで本研究では,任意の特徴量に対するモデルのスケール依存度を簡易に測定する手法を提案する。
質問回答(QA: Question Answering)における各種事前学習モデルとデバイアス法について、既知の予測バイアスと新たに発見された予測バイアスの集合に対するロバスト性を評価する。
既存のデバイアス法は、選択された刺激的特徴への依存を軽減することができるが、これらの手法のOOD性能向上は、偏りのある特徴への依存を緩和することによって説明できない。
論文 参考訳(メタデータ) (2023-05-11T14:35:00Z) - Investigating Failures to Generalize for Coreference Resolution Models [93.95952368743919]
本稿では,現在のコア参照解決モデルの誤差が,データセット間での運用方法の相違にどの程度関連しているかを検討する。
具体的には、モデル性能をいくつかのタイプのコア参照に対応するカテゴリに分け、分解する。
このブレークダウンは、異なるコア参照タイプをまたいだ一般化能力において、最先端モデルがどのように異なるかを調べるのに役立ちます。
論文 参考訳(メタデータ) (2023-03-16T05:32:02Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - Exploring The Landscape of Distributional Robustness for Question
Answering Models [47.178481044045505]
調査は350以上のモデルと16の質問応答データセットにまたがる。
多くの場合、モデルのバリエーションは堅牢性に影響を与えない。
我々は,質問応答モデルに対するロバストネスの傾向をさらに分析するよう研究者に促すため,すべての評価を公表する。
論文 参考訳(メタデータ) (2022-10-22T18:17:31Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Trusted Multi-View Classification [76.73585034192894]
本稿では,信頼された多視点分類と呼ばれる新しい多視点分類手法を提案する。
さまざまなビューをエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
提案アルゴリズムは,分類信頼性とロバスト性の両方を促進するために,複数のビューを併用する。
論文 参考訳(メタデータ) (2021-02-03T13:30:26Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。