論文の概要: Automated Trustworthiness Oracle Generation for Machine Learning Text Classifiers
- arxiv url: http://arxiv.org/abs/2410.22663v1
- Date: Wed, 30 Oct 2024 03:26:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:29:25.501848
- Title: Automated Trustworthiness Oracle Generation for Machine Learning Text Classifiers
- Title(参考訳): 機械学習テキスト分類器のための信頼性の自動生成
- Authors: Lam Nguyen Tung, Steven Cho, Xiaoning Du, Neelofar Neelofar, Valerio Terragni, Stefano Ruberto, Aldeida Aleti,
- Abstract要約: モデルの信頼性や精度といった従来のメトリクスは、機械学習モデルに対する人間の信頼を構築するには不十分です。
予測帰属語が予測クラスに関連があるかどうかを自動的にチェックするTOKIを提案する。
また,TOKIが特定した信頼性問題を対象とした新たな敵攻撃手法を提案する。
- 参考スコア(独自算出の注目度): 9.349442247982557
- License:
- Abstract: Machine learning (ML) for text classification has been widely used in various domains, such as toxicity detection, chatbot consulting, and review analysis. These applications can significantly impact ethics, economics, and human behavior, raising serious concerns about trusting ML decisions. Several studies indicate that traditional metrics, such as model confidence and accuracy, are insufficient to build human trust in ML models. These models often learn spurious correlations during training and predict based on them during inference. In the real world, where such correlations are absent, their performance can deteriorate significantly. To avoid this, a common practice is to test whether predictions are reasonable. Along with this, a challenge known as the trustworthiness oracle problem has been introduced. Due to the lack of automated trustworthiness oracles, the assessment requires manual validation of the decision process disclosed by explanation methods, which is time-consuming and not scalable. We propose TOKI, the first automated trustworthiness oracle generation method for text classifiers, which automatically checks whether the prediction-contributing words are related to the predicted class using explanation methods and word embeddings. To demonstrate its practical usefulness, we introduce a novel adversarial attack method targeting trustworthiness issues identified by TOKI. We compare TOKI with a naive baseline based solely on model confidence using human-created ground truths of 6,000 predictions. We also compare TOKI-guided adversarial attack method with A2T, a SOTA adversarial attack method. Results show that relying on prediction uncertainty cannot distinguish between trustworthy and untrustworthy predictions, TOKI achieves 142% higher accuracy than the naive baseline, and TOKI-guided adversarial attack method is more effective with fewer perturbations than A2T.
- Abstract(参考訳): テキスト分類のための機械学習(ML)は、毒性の検出、チャットボットのコンサルティング、レビュー分析など、さまざまな領域で広く使われている。
これらの応用は倫理、経済学、人間の行動に大きく影響し、ML決定を信頼することに対する深刻な懸念を提起する。
いくつかの研究は、モデルの信頼性や精度のような伝統的なメトリクスが、MLモデルに対する人間の信頼を構築するのに不十分であることを示している。
これらのモデルは、トレーニング中に急激な相関を学習し、推論中にそれらに基づいて予測する。
このような相関関係が存在しない実世界では、その性能は著しく低下する。
これを避けるために一般的なプラクティスは、予測が妥当かどうかをテストすることである。
これに伴い、信頼性オラクル問題と呼ばれる課題が導入された。
自動化された信頼性基準が欠如しているため、評価には、説明手法によって開示される決定プロセスの手作業による検証が必要である。
そこで本研究では,テキスト分類器の信頼度自動生成手法であるTOKIを提案し,予測語が予測クラスと関連しているかどうかを,説明法と単語埋め込みを用いて自動チェックする。
実用性を示すために,TOKIが特定した信頼性問題を対象とした新たな敵攻撃手法を提案する。
6,000の予測による人為的地下真実を用いたモデル信頼度のみに基づくナイーブベースラインとTOKIを比較した。
また,TOKI誘導対向攻撃法とSOTA対向攻撃法であるA2Tとの比較を行った。
その結果,予測の不確実性に依存しても信頼できない予測と信頼できない予測とを区別することはできず,TOKIはナイーブベースラインよりも142%高い精度を達成でき,TOKI誘導逆攻撃法はA2Tよりも摂動が少なく,より効果的であることがわかった。
関連論文リスト
- UAHOI: Uncertainty-aware Robust Interaction Learning for HOI Detection [18.25576487115016]
本稿では,Human-Object Interaction(HOI)検出について述べる。
与えられた画像やビデオフレーム内の人間とオブジェクト間の相互作用を識別し、理解するという課題に対処する。
本研究では,不確実性を考慮したロバストなヒューマンオブジェクトインタラクション学習であるtextscUAHOIを提案する。
論文 参考訳(メタデータ) (2024-08-14T10:06:39Z) - Automated Trustworthiness Testing for Machine Learning Classifiers [3.3423762257383207]
本稿では,テキスト分類器が信頼に値するかどうかを判断する信頼度オラクルを自動生成するTOWERを提案する。
我々の仮説は、その説明中の単語が予測されたクラスと意味的に関連している場合、予測は信頼に値するというものである。
その結果,TOWERはノイズの増加に伴って信頼性の低下を検出することができるが,人為的ラベル付きデータセットに対して評価しても有効ではないことがわかった。
論文 参考訳(メタデータ) (2024-06-07T20:25:05Z) - Error-Driven Uncertainty Aware Training [7.702016079410588]
Error-Driven Uncertainty Aware Trainingは、ニューラル分類器が不確実性を正確に推定する能力を高めることを目的としている。
EUATアプローチは、モデルのトレーニングフェーズ中に、トレーニング例が正しく予測されているか、あるいは正しく予測されているかによって、2つの損失関数を選択的に使用することによって機能する。
画像認識領域における多様なニューラルモデルとデータセットを用いてEUATを評価する。
論文 参考訳(メタデータ) (2024-05-02T11:48:14Z) - Revisiting Confidence Estimation: Towards Reliable Failure Prediction [53.79160907725975]
多くの信頼度推定法は誤分類誤りを検出するのに有害である。
本稿では, 最先端の故障予測性能を示す平坦な最小値を求めることにより, 信頼性ギャップを拡大することを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:44:14Z) - TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in
End-to-End ASR [1.8477401359673709]
クラス確率に基づく信頼スコアは、自信過剰なASR予測の品質を正確に表すものではない。
信頼度推定モデル(CEM)を訓練するためのTeLeS(Temporal-Lexeme similarity)の信頼性スコアを提案する。
我々は、ヒンディー語、タミル語、カナダ語という3つの言語で訓練されたASRモデルを用いて、様々なトレーニングデータサイズで実験を行う。
論文 参考訳(メタデータ) (2024-01-06T16:29:13Z) - Reliability-Aware Prediction via Uncertainty Learning for Person Image
Retrieval [51.83967175585896]
UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性に配慮した予測を提供することを目的としている。
データ不確実性はサンプル固有のノイズを捕捉する」一方、モデル不確実性はサンプルの予測に対するモデルの信頼を表現している。
論文 参考訳(メタデータ) (2022-10-24T17:53:20Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Learning to Predict Trustworthiness with Steep Slope Loss [69.40817968905495]
本研究では,現実の大規模データセットにおける信頼性の予測問題について検討する。
我々は、先行技術損失関数で訓練された信頼性予測器が、正しい予測と誤った予測の両方を信頼に値するものとみなす傾向があることを観察する。
そこで我々は,2つのスライド状の曲線による不正確な予測から,特徴w.r.t.正しい予測を分離する,新たな急勾配損失を提案する。
論文 参考訳(メタデータ) (2021-09-30T19:19:09Z) - Tribrid: Stance Classification with Neural Inconsistency Detection [9.150728831518459]
本稿では,BERTなどのニューラルアーキテクチャを用いたソーシャルメディア上での自動姿勢分類を行う際の課題について検討する。
提案するニューラルアーキテクチャでは,任意のクレームに対して自動生成された否定的視点も含んでいる。
モデルは同時に複数の予測を行うように共同で学習され、元の視点の分類を改善するか、疑わしい予測をフィルタリングするために使用することができる。
論文 参考訳(メタデータ) (2021-09-14T08:13:03Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Binary Classification from Positive Data with Skewed Confidence [85.18941440826309]
肯定的信頼度(Pconf)分類は、有望な弱教師付き学習法である。
実際には、信頼はアノテーションプロセスで生じるバイアスによって歪められることがある。
本稿では、スキュード信頼度のパラメータ化モデルを導入し、ハイパーパラメータを選択する方法を提案する。
論文 参考訳(メタデータ) (2020-01-29T00:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。