論文の概要: Automated Trustworthiness Testing for Machine Learning Classifiers
- arxiv url: http://arxiv.org/abs/2406.05251v1
- Date: Fri, 7 Jun 2024 20:25:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 22:36:11.523041
- Title: Automated Trustworthiness Testing for Machine Learning Classifiers
- Title(参考訳): 機械学習分類器の信頼性自動テスト
- Authors: Steven Cho, Seaton Cousins-Baxter, Stefano Ruberto, Valerio Terragni,
- Abstract要約: 本稿では,テキスト分類器が信頼に値するかどうかを判断する信頼度オラクルを自動生成するTOWERを提案する。
我々の仮説は、その説明中の単語が予測されたクラスと意味的に関連している場合、予測は信頼に値するというものである。
その結果,TOWERはノイズの増加に伴って信頼性の低下を検出することができるが,人為的ラベル付きデータセットに対して評価しても有効ではないことがわかった。
- 参考スコア(独自算出の注目度): 3.3423762257383207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine Learning (ML) has become an integral part of our society, commonly used in critical domains such as finance, healthcare, and transportation. Therefore, it is crucial to evaluate not only whether ML models make correct predictions but also whether they do so for the correct reasons, ensuring our trust that will perform well on unseen data. This concept is known as trustworthiness in ML. Recently, explainable techniques (e.g., LIME, SHAP) have been developed to interpret the decision-making processes of ML models, providing explanations for their predictions (e.g., words in the input that influenced the prediction the most). Assessing the plausibility of these explanations can enhance our confidence in the models' trustworthiness. However, current approaches typically rely on human judgment to determine the plausibility of these explanations. This paper proposes TOWER, the first technique to automatically create trustworthiness oracles that determine whether text classifier predictions are trustworthy. It leverages word embeddings to automatically evaluate the trustworthiness of a model-agnostic text classifiers based on the outputs of explanatory techniques. Our hypothesis is that a prediction is trustworthy if the words in its explanation are semantically related to the predicted class. We perform unsupervised learning with untrustworthy models obtained from noisy data to find the optimal configuration of TOWER. We then evaluated TOWER on a human-labeled trustworthiness dataset that we created. The results show that TOWER can detect a decrease in trustworthiness as noise increases, but is not effective when evaluated against the human-labeled dataset. Our initial experiments suggest that our hypothesis is valid and promising, but further research is needed to better understand the relationship between explanations and trustworthiness issues.
- Abstract(参考訳): 機械学習(ML)は、金融、医療、交通といった重要な領域で一般的に使われている社会の不可欠な部分となっている。
したがって、MLモデルが正しい予測を行うかどうかだけでなく、正しい理由から正しい予測を行うかどうかを判断し、見当たらないデータに対して良好な信頼性を確保することが重要である。
この概念はMLの信頼性として知られている。
近年,MLモデルの意思決定過程を解釈するための説明可能な手法 (例: LIME, SHAP) が開発されている。
これらの説明の妥当性を評価することは、モデルの信頼性に対する信頼を高めることができる。
しかしながら、現在のアプローチは通常、これらの説明の妥当性を決定するために人間の判断に依存している。
本稿では,テキスト分類器が信頼に値するかどうかを判断する信頼度オラクルを自動生成するTOWERを提案する。
単語埋め込みを利用して、説明技法の出力に基づいて、モデルに依存しないテキスト分類器の信頼性を自動的に評価する。
我々の仮説は、その説明中の単語が予測されたクラスと意味的に関連している場合、予測は信頼に値するというものである。
ノイズデータから得られた信頼できないモデルを用いて教師なし学習を行い、TOWERの最適構成を求める。
そして、作成した人間ラベルの信頼性データセットでTOWERを評価しました。
その結果,TOWERはノイズの増加に伴って信頼性の低下を検出することができるが,人為的ラベル付きデータセットに対して評価しても有効ではないことがわかった。
最初の実験では、仮説が有効で有望であることが示唆されたが、説明と信頼性の問題との関係をよりよく理解するためには、さらなる研究が必要である。
関連論文リスト
- Automated Trustworthiness Oracle Generation for Machine Learning Text Classifiers [9.349442247982557]
モデルの信頼性や精度といった従来のメトリクスは、機械学習モデルに対する人間の信頼を構築するには不十分です。
予測帰属語が予測クラスに関連があるかどうかを自動的にチェックするTOKIを提案する。
また,TOKIが特定した信頼性問題を対象とした新たな敵攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-10-30T03:26:37Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Birds of a Feather Trust Together: Knowing When to Trust a Classifier
via Adaptive Neighborhood Aggregation [30.34223543030105]
我々は、NeighborAggがアダプティブ近隣アグリゲーションを介して2つの重要な情報を利用する方法を示す。
また, 誤り検出の密接な関連課題へのアプローチを拡張し, 偽陰性境界に対する理論的カバレッジを保証する。
論文 参考訳(メタデータ) (2022-11-29T18:43:15Z) - Reliability-Aware Prediction via Uncertainty Learning for Person Image
Retrieval [51.83967175585896]
UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性に配慮した予測を提供することを目的としている。
データ不確実性はサンプル固有のノイズを捕捉する」一方、モデル不確実性はサンプルの予測に対するモデルの信頼を表現している。
論文 参考訳(メタデータ) (2022-10-24T17:53:20Z) - Learning Confidence for Transformer-based Neural Machine Translation [38.679505127679846]
本稿では,ニューラルネットワーク翻訳(NMT)モデルのトレーニングと協調して,教師なしの信頼度推定学習を提案する。
我々は、NMTモデルが正しい予測を行うために必要なヒントの数として、信頼性を説明し、より多くのヒントは信頼性の低いことを示す。
学習された信頼度推定は文・単語レベルの品質評価タスクにおいて高い精度が得られることを示す。
論文 参考訳(メタデータ) (2022-03-22T01:51:58Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Learning to Predict Trustworthiness with Steep Slope Loss [69.40817968905495]
本研究では,現実の大規模データセットにおける信頼性の予測問題について検討する。
我々は、先行技術損失関数で訓練された信頼性予測器が、正しい予測と誤った予測の両方を信頼に値するものとみなす傾向があることを観察する。
そこで我々は,2つのスライド状の曲線による不正確な予測から,特徴w.r.t.正しい予測を分離する,新たな急勾配損失を提案する。
論文 参考訳(メタデータ) (2021-09-30T19:19:09Z) - MACEst: The reliable and trustworthy Model Agnostic Confidence Estimator [0.17188280334580192]
我々は、標準的な機械学習ポイント予測アルゴリズムに基づく信頼度推定は、基本的に欠陥があると主張している。
MACEstは信頼性と信頼性の高い信頼度推定を提供するモデル非依存信頼度推定器である。
論文 参考訳(メタデータ) (2021-09-02T14:34:06Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z) - Robust Validation: Confident Predictions Even When Distributions Shift [19.327409270934474]
本稿では,モデルが点予測ではなく,その予測に対して不確実な推定を行うような,頑健な予測推論の手順について述べる。
本稿では, トレーニング集団の周囲に$f$-divergence のボールを用いて, 任意のテスト分布に対して適切なカバレッジレベルを与える予測セットを生成する手法を提案する。
私たちの方法論の重要な構成要素は、将来のデータシフトの量を見積り、それに対する堅牢性を構築することです。
論文 参考訳(メタデータ) (2020-08-10T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。