Fugu-MT 論文翻訳(概要): Automated Trustworthiness Oracle Generation for Machine Learning Text Classifiers

論文の概要: Automated Trustworthiness Oracle Generation for Machine Learning Text Classifiers

arxiv url: http://arxiv.org/abs/2410.22663v1
Date: Wed, 30 Oct 2024 03:26:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.170169
Title: Automated Trustworthiness Oracle Generation for Machine Learning Text Classifiers
Title（参考訳）: 機械学習テキスト分類器のための信頼性の自動生成
Authors: Lam Nguyen Tung, Steven Cho, Xiaoning Du, Neelofar Neelofar, Valerio Terragni, Stefano Ruberto, Aldeida Aleti,
Abstract要約: モデルの信頼性や精度といった従来のメトリクスは、機械学習モデルに対する人間の信頼を構築するには不十分です。予測帰属語が予測クラスに関連があるかどうかを自動的にチェックするTOKIを提案する。また,TOKIが特定した信頼性問題を対象とした新たな敵攻撃手法を提案する。
参考スコア（独自算出の注目度）: 9.349442247982557
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Machine learning (ML) for text classification has been widely used in various domains, such as toxicity detection, chatbot consulting, and review analysis. These applications can significantly impact ethics, economics, and human behavior, raising serious concerns about trusting ML decisions. Several studies indicate that traditional metrics, such as model confidence and accuracy, are insufficient to build human trust in ML models. These models often learn spurious correlations during training and predict based on them during inference. In the real world, where such correlations are absent, their performance can deteriorate significantly. To avoid this, a common practice is to test whether predictions are reasonable. Along with this, a challenge known as the trustworthiness oracle problem has been introduced. Due to the lack of automated trustworthiness oracles, the assessment requires manual validation of the decision process disclosed by explanation methods, which is time-consuming and not scalable. We propose TOKI, the first automated trustworthiness oracle generation method for text classifiers, which automatically checks whether the prediction-contributing words are related to the predicted class using explanation methods and word embeddings. To demonstrate its practical usefulness, we introduce a novel adversarial attack method targeting trustworthiness issues identified by TOKI. We compare TOKI with a naive baseline based solely on model confidence using human-created ground truths of 6,000 predictions. We also compare TOKI-guided adversarial attack method with A2T, a SOTA adversarial attack method. Results show that relying on prediction uncertainty cannot distinguish between trustworthy and untrustworthy predictions, TOKI achieves 142% higher accuracy than the naive baseline, and TOKI-guided adversarial attack method is more effective with fewer perturbations than A2T.
Abstract（参考訳）: テキスト分類のための機械学習(ML)は、毒性の検出、チャットボットのコンサルティング、レビュー分析など、さまざまな領域で広く使われている。これらの応用は倫理、経済学、人間の行動に大きく影響し、ML決定を信頼することに対する深刻な懸念を提起する。いくつかの研究は、モデルの信頼性や精度のような伝統的なメトリクスが、MLモデルに対する人間の信頼を構築するのに不十分であることを示している。これらのモデルは、トレーニング中に急激な相関を学習し、推論中にそれらに基づいて予測する。このような相関関係が存在しない実世界では、その性能は著しく低下する。これを避けるために一般的なプラクティスは、予測が妥当かどうかをテストすることである。これに伴い、信頼性オラクル問題と呼ばれる課題が導入された。自動化された信頼性基準が欠如しているため、評価には、説明手法によって開示される決定プロセスの手作業による検証が必要である。そこで本研究では,テキスト分類器の信頼度自動生成手法であるTOKIを提案し,予測語が予測クラスと関連しているかどうかを,説明法と単語埋め込みを用いて自動チェックする。実用性を示すために,TOKIが特定した信頼性問題を対象とした新たな敵攻撃手法を提案する。 6,000の予測による人為的地下真実を用いたモデル信頼度のみに基づくナイーブベースラインとTOKIを比較した。また,TOKI誘導対向攻撃法とSOTA対向攻撃法であるA2Tとの比較を行った。その結果,予測の不確実性に依存しても信頼できない予測と信頼できない予測とを区別することはできず,TOKIはナイーブベースラインよりも142%高い精度を達成でき,TOKI誘導逆攻撃法はA2Tよりも摂動が少なく,より効果的であることがわかった。

関連論文リスト

Evaluating Large Language Models for Phishing Detection, Self-Consistency, Faithfulness, and Explainability [0.0]
大規模言語モデル(LLM)は、ドメイン固有のフィッシング分類タスクを改善するための有望な方向性と可能性を示している。 LLMはフィッシングメールを正確に分類するだけでなく、予測に確実に適合し、内部に一貫性のある説明を生成することができるのか? BERT、Llamaモデル、Wizardなど、微調整されたトランスフォーマーベースのモデルを使って、ドメインの関連性を改善し、特定の区別をフィッシングするように調整しています。
論文参考訳（メタデータ） (2025-06-16T17:54:28Z)
UAHOI: Uncertainty-aware Robust Interaction Learning for HOI Detection [18.25576487115016]
本稿では,Human-Object Interaction(HOI)検出について述べる。与えられた画像やビデオフレーム内の人間とオブジェクト間の相互作用を識別し、理解するという課題に対処する。本研究では,不確実性を考慮したロバストなヒューマンオブジェクトインタラクション学習であるtextscUAHOIを提案する。
論文参考訳（メタデータ） (2024-08-14T10:06:39Z)
Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文参考訳（メタデータ） (2024-07-15T23:41:11Z)
Automated Trustworthiness Testing for Machine Learning Classifiers [3.3423762257383207]
本稿では,テキスト分類器が信頼に値するかどうかを判断する信頼度オラクルを自動生成するTOWERを提案する。我々の仮説は、その説明中の単語が予測されたクラスと意味的に関連している場合、予測は信頼に値するというものである。その結果,TOWERはノイズの増加に伴って信頼性の低下を検出することができるが,人為的ラベル付きデータセットに対して評価しても有効ではないことがわかった。
論文参考訳（メタデータ） (2024-06-07T20:25:05Z)
Error-Driven Uncertainty Aware Training [7.702016079410588]
Error-Driven Uncertainty Aware Trainingは、ニューラル分類器が不確実性を正確に推定する能力を高めることを目的としている。 EUATアプローチは、モデルのトレーニングフェーズ中に、トレーニング例が正しく予測されているか、あるいは正しく予測されているかによって、2つの損失関数を選択的に使用することによって機能する。画像認識領域における多様なニューラルモデルとデータセットを用いてEUATを評価する。
論文参考訳（メタデータ） (2024-05-02T11:48:14Z)
Revisiting Confidence Estimation: Towards Reliable Failure Prediction [53.79160907725975]
多くの信頼度推定法は誤分類誤りを検出するのに有害である。本稿では, 最先端の故障予測性能を示す平坦な最小値を求めることにより, 信頼性ギャップを拡大することを提案する。
論文参考訳（メタデータ） (2024-03-05T11:44:14Z)
Evaluation of Predictive Reliability to Foster Trust in Artificial Intelligence. A case study in Multiple Sclerosis [0.34473740271026115]
機械学習の失敗のスポッティングは、ML予測を使用して臨床上の決定を下す場合、最重要事項である。我々は,任意のMLモデルのデプロイメントフェーズで使用可能なシンプルなアプローチを提案し,予測を信頼するか否かを提案する。本手法は,デプロイメント中のML障害の可能性を見極めることによって,臨床医に効果的な支援を提供することを約束する。
論文参考訳（メタデータ） (2024-02-27T14:48:07Z)
TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in End-to-End ASR [1.8477401359673709]
クラス確率に基づく信頼スコアは、自信過剰なASR予測の品質を正確に表すものではない。信頼度推定モデル(CEM)を訓練するためのTeLeS(Temporal-Lexeme similarity)の信頼性スコアを提案する。我々は、ヒンディー語、タミル語、カナダ語という3つの言語で訓練されたASRモデルを用いて、様々なトレーニングデータサイズで実験を行う。
論文参考訳（メタデータ） (2024-01-06T16:29:13Z)
Semantic Image Attack for Visual Model Diagnosis [80.36063332820568]
実際には、特定の列車およびテストデータセットに関する計量分析は、信頼性や公正なMLモデルを保証しない。本稿では,セマンティック・イメージ・アタック(SIA)を提案する。
論文参考訳（メタデータ） (2023-03-23T03:13:04Z)
Reliability-Aware Prediction via Uncertainty Learning for Person Image Retrieval [51.83967175585896]
UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性に配慮した予測を提供することを目的としている。データ不確実性はサンプル固有のノイズを捕捉する」一方、モデル不確実性はサンプルの予測に対するモデルの信頼を表現している。
論文参考訳（メタデータ） (2022-10-24T17:53:20Z)
Estimating Confidence of Predictions of Individual Classifiers and Their Ensembles for the Genre Classification Task [0.0]
Genre IDは、非トピックテキスト分類のサブクラスである。 BERTやXLM-RoBERTaのような事前訓練されたトランスフォーマーに基づく神経モデルは、多くのNLPタスクにおいてSOTA結果を示す。
論文参考訳（メタデータ） (2022-06-15T09:59:05Z)
Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文参考訳（メタデータ） (2022-01-11T23:01:12Z)
Learning to Predict Trustworthiness with Steep Slope Loss [69.40817968905495]
本研究では,現実の大規模データセットにおける信頼性の予測問題について検討する。我々は、先行技術損失関数で訓練された信頼性予測器が、正しい予測と誤った予測の両方を信頼に値するものとみなす傾向があることを観察する。そこで我々は,2つのスライド状の曲線による不正確な予測から,特徴w.r.t.正しい予測を分離する,新たな急勾配損失を提案する。
論文参考訳（メタデータ） (2021-09-30T19:19:09Z)
Tribrid: Stance Classification with Neural Inconsistency Detection [9.150728831518459]
本稿では,BERTなどのニューラルアーキテクチャを用いたソーシャルメディア上での自動姿勢分類を行う際の課題について検討する。提案するニューラルアーキテクチャでは,任意のクレームに対して自動生成された否定的視点も含んでいる。モデルは同時に複数の予測を行うように共同で学習され、元の視点の分類を改善するか、疑わしい予測をフィルタリングするために使用することができる。
論文参考訳（メタデータ） (2021-09-14T08:13:03Z)
Trust but Verify: Assigning Prediction Credibility by Counterfactual Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文参考訳（メタデータ） (2020-11-24T19:52:38Z)
Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。 4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文参考訳（メタデータ） (2020-02-27T10:22:17Z)
Binary Classification from Positive Data with Skewed Confidence [85.18941440826309]
肯定的信頼度(Pconf)分類は、有望な弱教師付き学習法である。実際には、信頼はアノテーションプロセスで生じるバイアスによって歪められることがある。本稿では、スキュード信頼度のパラメータ化モデルを導入し、ハイパーパラメータを選択する方法を提案する。
論文参考訳（メタデータ） (2020-01-29T00:04:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。