論文の概要: Automated Trustworthiness Oracle Generation for Machine Learning Text Classifiers
- arxiv url: http://arxiv.org/abs/2410.22663v2
- Date: Tue, 08 Apr 2025 05:22:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:27:49.993037
- Title: Automated Trustworthiness Oracle Generation for Machine Learning Text Classifiers
- Title(参考訳): 機械学習テキスト分類器のための信頼性の自動生成
- Authors: Lam Nguyen Tung, Steven Cho, Xiaoning Du, Neelofar Neelofar, Valerio Terragni, Stefano Ruberto, Aldeida Aleti,
- Abstract要約: テキスト分類のための機械学習(ML)は、様々な領域で広く使われている。
これらの応用は倫理、経済、人間の行動に大きな影響を及ぼす可能性がある。
研究は、従来のメトリクスがMLモデルにおける人間の信頼を構築するのに不十分であることを示している。
これを避けるために、データ内の有効なパターンに基づいて予測が妥当かどうかをテストするのが一般的である。
- 参考スコア(独自算出の注目度): 9.349442247982557
- License:
- Abstract: Machine learning (ML) for text classification has been widely used in various domains. These applications can significantly impact ethics, economics, and human behavior, raising serious concerns about trusting ML decisions. Studies indicate that conventional metrics are insufficient to build human trust in ML models. These models often learn spurious correlations and predict based on them. In the real world, their performance can deteriorate significantly. To avoid this, a common practice is to test whether predictions are reasonable based on valid patterns in the data. Along with this, a challenge known as the trustworthiness oracle problem has been introduced. Due to the lack of automated trustworthiness oracles, the assessment requires manual validation of the decision process disclosed by explanation methods. However, this is time-consuming, error-prone, and unscalable. We propose TOKI, the first automated trustworthiness oracle generation method for text classifiers. TOKI automatically checks whether the words contributing the most to a prediction are semantically related to the predicted class. Specifically, we leverage ML explanations to extract the decision-contributing words and measure their semantic relatedness with the class based on word embeddings. We also introduce a novel adversarial attack method that targets trustworthiness vulnerabilities identified by TOKI. To evaluate their alignment with human judgement, experiments are conducted. We compare TOKI with a naive baseline based solely on model confidence and TOKI-guided adversarial attack method with A2T, a SOTA adversarial attack method. Results show that relying on prediction uncertainty cannot effectively distinguish between trustworthy and untrustworthy predictions, TOKI achieves 142% higher accuracy than the naive baseline, and TOKI-guided attack method is more effective with fewer perturbations than A2T.
- Abstract(参考訳): テキスト分類のための機械学習(ML)は、様々な領域で広く使われている。
これらの応用は倫理、経済学、人間の行動に大きく影響し、ML決定を信頼することに対する深刻な懸念を提起する。
研究は、従来のメトリクスがMLモデルにおける人間の信頼を構築するのに不十分であることを示している。
これらのモデルは、しばしば素早い相関を学習し、それらに基づいて予測する。
現実世界では、パフォーマンスが著しく低下する可能性がある。
これを避けるために、データ内の有効なパターンに基づいて予測が妥当かどうかをテストするのが一般的である。
これに伴い、信頼性オラクル問題と呼ばれる課題が導入された。
自動化された信頼性の欠陥が欠如しているため、その評価には説明方法によって開示される決定プロセスの手作業による検証が必要である。
しかし、これは時間がかかり、エラーが発生し、スケールできない。
そこで本研究では,テキスト分類器の信頼度自動生成手法であるTOKIを提案する。
TOKIは、予測に最も寄与する単語が予測クラスと意味的に関連しているかどうかを自動的にチェックする。
具体的には、MLの説明を活用して、決定に寄与する単語を抽出し、単語埋め込みに基づくクラスとそれらの意味的関連性を測定する。
また,TOKIが同定した信頼性の脆弱性を標的とした新たな攻撃手法を提案する。
人間の判断との整合性を評価するため,実験を行った。
モデル信頼度とTOKI誘導対向攻撃法とSOTA対向攻撃法であるA2Tとの比較を行った。
その結果, 予測の不確実性に頼った場合, 信頼できない予測と信頼できない予測を効果的に区別できないこと, TOKIはナイーブベースラインよりも142%高い精度を達成でき, TOKI誘導攻撃法はA2Tよりも摂動が少なく, より効果的であることがわかった。
関連論文リスト
- UAHOI: Uncertainty-aware Robust Interaction Learning for HOI Detection [18.25576487115016]
本稿では,Human-Object Interaction(HOI)検出について述べる。
与えられた画像やビデオフレーム内の人間とオブジェクト間の相互作用を識別し、理解するという課題に対処する。
本研究では,不確実性を考慮したロバストなヒューマンオブジェクトインタラクション学習であるtextscUAHOIを提案する。
論文 参考訳(メタデータ) (2024-08-14T10:06:39Z) - Automated Trustworthiness Testing for Machine Learning Classifiers [3.3423762257383207]
本稿では,テキスト分類器が信頼に値するかどうかを判断する信頼度オラクルを自動生成するTOWERを提案する。
我々の仮説は、その説明中の単語が予測されたクラスと意味的に関連している場合、予測は信頼に値するというものである。
その結果,TOWERはノイズの増加に伴って信頼性の低下を検出することができるが,人為的ラベル付きデータセットに対して評価しても有効ではないことがわかった。
論文 参考訳(メタデータ) (2024-06-07T20:25:05Z) - Error-Driven Uncertainty Aware Training [7.702016079410588]
Error-Driven Uncertainty Aware Trainingは、ニューラル分類器が不確実性を正確に推定する能力を高めることを目的としている。
EUATアプローチは、モデルのトレーニングフェーズ中に、トレーニング例が正しく予測されているか、あるいは正しく予測されているかによって、2つの損失関数を選択的に使用することによって機能する。
画像認識領域における多様なニューラルモデルとデータセットを用いてEUATを評価する。
論文 参考訳(メタデータ) (2024-05-02T11:48:14Z) - Revisiting Confidence Estimation: Towards Reliable Failure Prediction [53.79160907725975]
多くの信頼度推定法は誤分類誤りを検出するのに有害である。
本稿では, 最先端の故障予測性能を示す平坦な最小値を求めることにより, 信頼性ギャップを拡大することを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:44:14Z) - TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in
End-to-End ASR [1.8477401359673709]
クラス確率に基づく信頼スコアは、自信過剰なASR予測の品質を正確に表すものではない。
信頼度推定モデル(CEM)を訓練するためのTeLeS(Temporal-Lexeme similarity)の信頼性スコアを提案する。
我々は、ヒンディー語、タミル語、カナダ語という3つの言語で訓練されたASRモデルを用いて、様々なトレーニングデータサイズで実験を行う。
論文 参考訳(メタデータ) (2024-01-06T16:29:13Z) - Reliability-Aware Prediction via Uncertainty Learning for Person Image
Retrieval [51.83967175585896]
UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性に配慮した予測を提供することを目的としている。
データ不確実性はサンプル固有のノイズを捕捉する」一方、モデル不確実性はサンプルの予測に対するモデルの信頼を表現している。
論文 参考訳(メタデータ) (2022-10-24T17:53:20Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Learning to Predict Trustworthiness with Steep Slope Loss [69.40817968905495]
本研究では,現実の大規模データセットにおける信頼性の予測問題について検討する。
我々は、先行技術損失関数で訓練された信頼性予測器が、正しい予測と誤った予測の両方を信頼に値するものとみなす傾向があることを観察する。
そこで我々は,2つのスライド状の曲線による不正確な予測から,特徴w.r.t.正しい予測を分離する,新たな急勾配損失を提案する。
論文 参考訳(メタデータ) (2021-09-30T19:19:09Z) - Tribrid: Stance Classification with Neural Inconsistency Detection [9.150728831518459]
本稿では,BERTなどのニューラルアーキテクチャを用いたソーシャルメディア上での自動姿勢分類を行う際の課題について検討する。
提案するニューラルアーキテクチャでは,任意のクレームに対して自動生成された否定的視点も含んでいる。
モデルは同時に複数の予測を行うように共同で学習され、元の視点の分類を改善するか、疑わしい予測をフィルタリングするために使用することができる。
論文 参考訳(メタデータ) (2021-09-14T08:13:03Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Binary Classification from Positive Data with Skewed Confidence [85.18941440826309]
肯定的信頼度(Pconf)分類は、有望な弱教師付き学習法である。
実際には、信頼はアノテーションプロセスで生じるバイアスによって歪められることがある。
本稿では、スキュード信頼度のパラメータ化モデルを導入し、ハイパーパラメータを選択する方法を提案する。
論文 参考訳(メタデータ) (2020-01-29T00:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。