論文の概要: A Trustworthiness Score to Evaluate DNN Predictions
- arxiv url: http://arxiv.org/abs/2301.08839v6
- Date: Tue, 20 Jun 2023 14:52:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 04:21:40.073658
- Title: A Trustworthiness Score to Evaluate DNN Predictions
- Title(参考訳): DNN予測評価のための信頼性スコア
- Authors: Abanoub Ghobrial, Darryl Hond, Hamid Asgari, Kerstin Eder
- Abstract要約: ディープニューラルネットワークの予測が信頼できるか疑わしいかを知るためには、運用中の安全性が不可欠である。
信頼性スコア(TS: Trustworthiness score)は、予測に対する信頼性を提供するための、より透明で効果的な方法を提供する指標である。
人検出にYOLOv5を用いたケーススタディを行い,TSとSSの手法と使用法を実証した。
- 参考スコア(独自算出の注目度): 1.5484595752241122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the black box nature of deep neural networks (DNN), the continuous
validation of DNN during operation is challenging with the absence of a human
monitor. As a result this makes it difficult for developers and regulators to
gain confidence in the deployment of autonomous systems employing DNN. It is
critical for safety during operation to know when DNN's predictions are
trustworthy or suspicious. With the absence of a human monitor, the basic
approach is to use the model's output confidence score to assess if predictions
are trustworthy or suspicious. However, the model's confidence score is a
result of computations coming from a black box, therefore lacks transparency
and makes it challenging to automatedly credit trustworthiness to predictions.
We introduce the trustworthiness score (TS), a simple metric that provides a
more transparent and effective way of providing confidence in DNN predictions
compared to model's confidence score. The metric quantifies the trustworthiness
in a prediction by checking for the existence of certain features in the
predictions made by the DNN. We also use the underlying idea of the TS metric,
to provide a suspiciousness score (SS) in the overall input frame to help in
the detection of suspicious frames where false negatives exist. We conduct a
case study using YOLOv5 on persons detection to demonstrate our method and
usage of TS and SS. The case study shows that using our method consistently
improves the precision of predictions compared to relying on model confidence
score alone, for both 1) approving of trustworthy predictions (~20%
improvement) and 2) detecting suspicious frames (~5% improvement).
- Abstract(参考訳): ディープニューラルネットワーク(DNN)のブラックボックスの性質のため、操作中のDNNの継続的な検証は、人間のモニターがないため困難である。
その結果、開発者や規制機関がDNNを使用した自律システムのデプロイに自信を持つことが難しくなる。
DNNの予測が信頼できるか疑わしいかを知るためには、運用中の安全性が重要である。
人間のモニターがないため、基本的なアプローチはモデルの出力信頼度スコアを使用して予測が信頼できるか疑わしいかを評価することである。
しかしながら、モデルの信頼性スコアはブラックボックスからの計算の結果であり、それゆえ透明性が欠如しており、予測に対する信頼性の自動評価が困難である。
信頼度スコア(ts)は,モデルの信頼度スコアと比較して,dnn予測に対する信頼度を提供するための,より透過的で効果的な方法を提供するシンプルな指標である。
DNNの予測における特定の特徴の存在をチェックすることにより、予測における信頼性を定量化する。
また,ts指標の基本的な考え方を用いて,全体の入力フレームに不審性スコア(ss)を提供し,偽陰性が存在する不審なフレームの検出を支援する。
人検出にYOLOv5を用いたケーススタディを行い,TSとSSの手法と使用法を実証した。
本手法を用いたケーススタディでは, モデル信頼度スコアのみに依存する場合と比較して, 予測精度が一貫して向上することを示す。
1)信頼に値する予測(~20%改善)の承認及び
2)不審なフレームの検出(約5%改善)。
関連論文リスト
- Revisiting Confidence Estimation: Towards Reliable Failure Prediction [53.79160907725975]
多くの信頼度推定法は誤分類誤りを検出するのに有害である。
本稿では, 最先端の故障予測性能を示す平坦な最小値を求めることにより, 信頼性ギャップを拡大することを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:44:14Z) - TrustGuard: GNN-based Robust and Explainable Trust Evaluation with
Dynamicity Support [59.41529066449414]
本稿では,信頼度を考慮した信頼度評価モデルであるTrustGuardを提案する。
TrustGuardは、スナップショット入力層、空間集約層、時間集約層、予測層を含む階層アーキテクチャで設計されている。
実験により、TrustGuardは、シングルタイムスロットとマルチタイムスロットの信頼予測に関して、最先端のGNNベースの信頼評価モデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-06-23T07:39:12Z) - Online Black-Box Confidence Estimation of Deep Neural Networks [0.0]
本稿では,任意のDNNの信頼度を推定する近傍信頼度(NHC)について紹介する。
この計量は、トップ-1クラスの出力のみが必要であり、勾配へのアクセスを必要としないため、ブラックボックスシステムで使用することができる。
ドメイン内分散の小さなシフト、ドメイン外データ、あるいは敵攻撃など、さまざまなデータ分布の評価は、NHCがオンラインのホワイトボックスの信頼度推定に匹敵する方法と同等あるいは同等な性能を示すことを示している。
論文 参考訳(メタデータ) (2023-02-27T08:30:46Z) - Reliability-Aware Prediction via Uncertainty Learning for Person Image
Retrieval [51.83967175585896]
UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性に配慮した予測を提供することを目的としている。
データ不確実性はサンプル固有のノイズを捕捉する」一方、モデル不確実性はサンプルの予測に対するモデルの信頼を表現している。
論文 参考訳(メタデータ) (2022-10-24T17:53:20Z) - TRUST-LAPSE: An Explainable and Actionable Mistrust Scoring Framework
for Model Monitoring [4.262769931159288]
連続モデル監視のための"ミストラスト"スコアリングフレームワークであるTRUST-LAPSEを提案する。
我々は,各入力サンプルのモデル予測の信頼性を,潜時空間埋め込みのシーケンスを用いて評価する。
AUROCs 84.1 (vision), 73.9 (audio), 77.1 (clinical EEGs)
論文 参考訳(メタデータ) (2022-07-22T18:32:38Z) - TrustGNN: Graph Neural Network based Trust Evaluation via Learnable
Propagative and Composable Nature [63.78619502896071]
信頼評価は、サイバーセキュリティ、ソーシャルコミュニケーション、レコメンダシステムなど、多くのアプリケーションにとって重要である。
本稿では,信頼グラフの伝播性および構成性を考慮した新しい信頼評価手法TrustGNNを提案する。
具体的には、TrustGNNは、異なる伝播過程のための特定の伝播パターンを設計し、新しい信頼を生み出すための異なる伝播過程の貢献を区別する。
論文 参考訳(メタデータ) (2022-05-25T13:57:03Z) - Learning Confidence for Transformer-based Neural Machine Translation [38.679505127679846]
本稿では,ニューラルネットワーク翻訳(NMT)モデルのトレーニングと協調して,教師なしの信頼度推定学習を提案する。
我々は、NMTモデルが正しい予測を行うために必要なヒントの数として、信頼性を説明し、より多くのヒントは信頼性の低いことを示す。
学習された信頼度推定は文・単語レベルの品質評価タスクにおいて高い精度が得られることを示す。
論文 参考訳(メタデータ) (2022-03-22T01:51:58Z) - Learning to Predict Trustworthiness with Steep Slope Loss [69.40817968905495]
本研究では,現実の大規模データセットにおける信頼性の予測問題について検討する。
我々は、先行技術損失関数で訓練された信頼性予測器が、正しい予測と誤った予測の両方を信頼に値するものとみなす傾向があることを観察する。
そこで我々は,2つのスライド状の曲線による不正確な予測から,特徴w.r.t.正しい予測を分離する,新たな急勾配損失を提案する。
論文 参考訳(メタデータ) (2021-09-30T19:19:09Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z) - PAC Confidence Predictions for Deep Neural Network Classifiers [28.61937254015157]
ディープニューラルネットワーク(DNN)を安全クリティカルな環境でデプロイする上で重要な課題は、その不確実性を定量化する厳密な方法を提供することだ。
証明可能な正当性保証を備えたDNNに対して,予測された分類信頼度を構築するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-02T04:09:17Z) - Towards Time-Aware Context-Aware Deep Trust Prediction in Online Social
Networks [0.4061135251278187]
信頼は、情報ソースが信頼できるか、誰と共有すべきか、誰から情報を受け入れるべきかを決定する尺度として定義できる。
ソーシャルスパマー検出、フェイクニュース検出、リツイート行動検出、レコメンデーションシステムなど、オンラインソーシャルネットワーク(OSN)への信頼のためのいくつかのアプリケーションがある。
信頼予測は、現在接続されていない2人のユーザー間の新しい信頼関係を予測するプロセスである。
論文 参考訳(メタデータ) (2020-03-21T01:00:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。