論文の概要: Probabilistic Runtime Verification, Evaluation and Risk Assessment of Visual Deep Learning Systems
- arxiv url: http://arxiv.org/abs/2509.19419v1
- Date: Tue, 23 Sep 2025 16:16:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.552272
- Title: Probabilistic Runtime Verification, Evaluation and Risk Assessment of Visual Deep Learning Systems
- Title(参考訳): 視覚深層学習システムの確率的実行時検証・評価・リスク評価
- Authors: Birk Torpmann-Hagen, Pål Halvorsen, Michael A. Riegler, Dag Johansen,
- Abstract要約: 本稿では,ディープラーニングシステムの検証,評価,リスク評価のための新しい手法を提案する。
提案手法は,アウト・オブ・ディストリビューション検出器の出力から確率を推定することにより,実行時の分布シフトの発生率を明示的にモデル化する。
提案手法は従来よりも常に優れており, 精度推定誤差は0.01から0.1の範囲である。
- 参考スコア(独自算出の注目度): 3.9341402479278216
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite achieving excellent performance on benchmarks, deep neural networks often underperform in real-world deployment due to sensitivity to minor, often imperceptible shifts in input data, known as distributional shifts. These shifts are common in practical scenarios but are rarely accounted for during evaluation, leading to inflated performance metrics. To address this gap, we propose a novel methodology for the verification, evaluation, and risk assessment of deep learning systems. Our approach explicitly models the incidence of distributional shifts at runtime by estimating their probability from outputs of out-of-distribution detectors. We combine these estimates with conditional probabilities of network correctness, structuring them in a binary tree. By traversing this tree, we can compute credible and precise estimates of network accuracy. We assess our approach on five different datasets, with which we simulate deployment conditions characterized by differing frequencies of distributional shift. Our approach consistently outperforms conventional evaluation, with accuracy estimation errors typically ranging between 0.01 and 0.1. We further showcase the potential of our approach on a medical segmentation benchmark, wherein we apply our methods towards risk assessment by associating costs with tree nodes, informing cost-benefit analyses and value-judgments. Ultimately, our approach offers a robust framework for improving the reliability and trustworthiness of deep learning systems, particularly in safety-critical applications, by providing more accurate performance estimates and actionable risk assessments.
- Abstract(参考訳): ベンチマークでの優れたパフォーマンスにもかかわらず、ディープニューラルネットワークは、分散シフトとして知られる入力データにおいて、マイナーな、しばしば受け入れがたいシフトに敏感なために、現実のデプロイメントにおいてパフォーマンスが劣ることが多い。
これらのシフトは実践的なシナリオでは一般的だが、評価中に考慮されることはめったにないため、パフォーマンス指標が膨らみます。
このギャップに対処するために,ディープラーニングシステムの検証,評価,リスク評価のための新しい手法を提案する。
提案手法は,アウト・オブ・ディストリビューション検出器の出力から確率を推定することにより,実行時の分布シフトの発生率を明示的にモデル化する。
これらの推定値とネットワークの正しさの条件付き確率を組み合わせ、バイナリツリーでそれらを構造化する。
この木をトラバースすることで、ネットワーク精度の信頼性と正確な推定を計算できる。
我々は,分布シフトの頻度の異なる配置条件をシミュレートした,5つの異なるデータセットに対するアプローチを評価する。
提案手法は従来よりも常に優れており, 精度推定誤差は0.01から0.1の範囲である。
さらに,本手法を木ノードに関連付けることでリスク評価に応用し,費用対効果分析と価値判断を行う医療セグメント化ベンチマークへのアプローチの可能性を示す。
最終的には、より正確なパフォーマンス評価と行動可能なリスク評価を提供することで、特に安全クリティカルなアプリケーションにおいて、ディープラーニングシステムの信頼性と信頼性を向上させるための堅牢なフレームワークを提供します。
関連論文リスト
- Aurora: Are Android Malware Classifiers Reliable and Stable under Distribution Shift? [51.12297424766236]
AURORAは、その信頼性と運用上のレジリエンスに基づいて、マルウェア分類器を評価するためのフレームワークである。
AURORAは、ポイント・イン・タイムのパフォーマンスを超えるように設計されたメトリクスのセットによって補完される。
さまざまなドリフトのデータセットにわたるSOTAフレームワークの脆弱性は、ホワイトボードへの復帰の必要性を示唆している。
論文 参考訳(メタデータ) (2025-05-28T20:22:43Z) - Evaluating Deep Neural Networks in Deployment (A Comparative and Replicability Study) [11.242083685224554]
ディープニューラルネットワーク(DNN)は、安全クリティカルなアプリケーションでますます利用されている。
デプロイにおけるDNNの信頼性を評価するために提案されている最近のアプローチについて検討する。
複製パッケージ上でこれらのアプローチの結果を実行して再現することは困難であり、それ自身以外のアーティファクト上でも実行することがさらに困難であることに気付きました。
論文 参考訳(メタデータ) (2024-07-11T17:58:12Z) - Free Lunch for Generating Effective Outlier Supervision [46.37464572099351]
本稿では, ほぼ現実的な外乱監視を実現するための超効率的な手法を提案する。
提案したtextttBayesAug は,従来の方式に比べて偽陽性率を 12.50% 以上削減する。
論文 参考訳(メタデータ) (2023-01-17T01:46:45Z) - Benchmarking common uncertainty estimation methods with
histopathological images under domain shift and label noise [62.997667081978825]
リスクの高い環境では、深層学習モデルは不確実性を判断し、誤分類の可能性がかなり高い場合に入力を拒否しなければなりません。
我々は,全スライド画像の分類において,最もよく使われている不確実性と頑健さの厳密な評価を行う。
我々は一般的に,手法のアンサンブルが,ドメインシフトやラベルノイズに対するロバスト性の向上とともに,より良い不確実性評価につながることを観察する。
論文 参考訳(メタデータ) (2023-01-03T11:34:36Z) - On the Practicality of Deterministic Epistemic Uncertainty [106.06571981780591]
決定論的不確実性法(DUM)は,分布外データの検出において高い性能を達成する。
DUMが十分に校正されており、現実のアプリケーションにシームレスにスケールできるかどうかは不明だ。
論文 参考訳(メタデータ) (2021-07-01T17:59:07Z) - Learning Calibrated Uncertainties for Domain Shift: A Distributionally
Robust Learning Approach [150.8920602230832]
ドメインシフトの下で校正された不確実性を学習するためのフレームワークを提案する。
特に、密度比推定は、ターゲット(テスト)サンプルの近さをソース(トレーニング)分布に反映する。
提案手法は下流タスクに有利な校正不確実性を生成する。
論文 参考訳(メタデータ) (2020-10-08T02:10:54Z) - Data-Driven Assessment of Deep Neural Networks with Random Input
Uncertainty [14.191310794366075]
我々は,ネットワーク出力の安全性を同時に証明し,ローカライズ可能なデータ駆動最適化手法を開発した。
深部ReLUネットワークにおける提案手法の有効性とトラクタビリティを実験的に実証した。
論文 参考訳(メタデータ) (2020-10-02T19:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。