論文の概要: Empirical Optimal Risk to Quantify Model Trustworthiness for Failure
Detection
- arxiv url: http://arxiv.org/abs/2308.03179v1
- Date: Sun, 6 Aug 2023 18:11:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 16:12:21.790245
- Title: Empirical Optimal Risk to Quantify Model Trustworthiness for Failure
Detection
- Title(参考訳): 故障検出のためのモデル信頼性を定量化する経験的最適リスク
- Authors: Shuang Ao, Stefan Rueger, Advaith Siddharthan
- Abstract要約: AIシステムにおける障害検出は、安全クリティカルなタスクのデプロイにおける重要な安全保護である。
リスクカバレッジ曲線(RC)は、データカバレッジ率と受け入れられたデータのパフォーマンスの間のトレードオフを明らかにする。
本稿では,最適RC曲線(E-AUoptRC)に基づくエクササイズ領域を提案する。
- 参考スコア(独自算出の注目度): 1.192436948211501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Failure detection (FD) in AI systems is a crucial safeguard for the
deployment for safety-critical tasks. The common evaluation method of FD
performance is the Risk-coverage (RC) curve, which reveals the trade-off
between the data coverage rate and the performance on accepted data. One common
way to quantify the RC curve by calculating the area under the RC curve.
However, this metric does not inform on how suited any method is for FD, or
what the optimal coverage rate should be. As FD aims to achieve higher
performance with fewer data discarded, evaluating with partial coverage
excluding the most uncertain samples is more intuitive and meaningful than full
coverage. In addition, there is an optimal point in the coverage where the
model could achieve ideal performance theoretically. We propose the Excess Area
Under the Optimal RC Curve (E-AUoptRC), with the area in coverage from the
optimal point to the full coverage. Further, the model performance at this
optimal point can represent both model learning ability and calibration. We
propose it as the Trust Index (TI), a complementary evaluation metric to the
overall model accuracy. We report extensive experiments on three benchmark
image datasets with ten variants of transformer and CNN models. Our results
show that our proposed methods can better reflect the model trustworthiness
than existing evaluation metrics. We further observe that the model with high
overall accuracy does not always yield the high TI, which indicates the
necessity of the proposed Trust Index as a complementary metric to the model
overall accuracy. The code are available at
\url{https://github.com/AoShuang92/optimal_risk}.
- Abstract(参考訳): AIシステムにおける障害検出(FD)は、安全クリティカルなタスクのデプロイにおける重要な安全保護である。
FD性能の一般的な評価方法はリスクカバレッジ曲線(RC)であり、これはデータカバレッジ率と受理データのパフォーマンスとのトレードオフを明らかにする。
RC曲線の下の面積を計算することで、RC曲線を定量化する一般的な方法である。
しかし、この指標は、どのような手法がFDにどのように適しているか、あるいは最適なカバレッジ率を示さない。
FDは、データ破棄が少なく、より高いパフォーマンスを達成することを目的としているため、最も不確実なサンプルを除く部分的なカバレッジは、完全なカバレッジよりも直感的で有意義である。
さらに、モデルが理論的に理想的な性能を達成できる範囲に最適点が存在する。
最適rc曲線 (e-auoptrc) における余剰面積について, 最適点から全被覆までの範囲について検討する。
また、この最適点におけるモデル性能は、モデル学習能力とキャリブレーションの両方を表現できる。
信頼度指標 (ti) として, モデル全体の精度に対する補完的評価指標として提案する。
我々は10種類のトランスフォーマーモデルとcnnモデルを用いた3つのベンチマーク画像データセットについて広範な実験を行った。
提案手法は,既存の評価指標よりもモデル信頼性を反映できることを示す。
さらに, モデル全体の精度が高いモデルが必ずしも高いtiを産出するとは限らないこと, モデル全体の精度を補完する指標として, 提案する信頼指数の必要性を示唆する。
コードは \url{https://github.com/aoshuang92/optimal_risk} で入手できる。
関連論文リスト
- UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation [93.38604803625294]
IncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG)について紹介する。
我々は、SNR(Signal-to-Noise Ratio)ベースのスパン不確実性を用いて、テキストチャンク間の類似性を推定する。
不確かさRAGはLLaMA-2-7Bでベースラインを2.03%上回り、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-03T17:39:38Z) - Distributionally Robust Optimization as a Scalable Framework to Characterize Extreme Value Distributions [22.765095010254118]
本研究の目的は分散ロバストな最適化 (DRO) 推定器の開発であり、特に多次元極値理論 (EVT) の統計量についてである。
点過程の空間における半パラメトリックな最大安定制約によって予測されるDRO推定器について検討した。
両手法は, 合成データを用いて検証し, 所定の特性を回復し, 提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-07-31T19:45:27Z) - PAC-Bayes Generalization Certificates for Learned Inductive Conformal
Prediction [27.434939269672288]
我々はPAC-Bayes理論を用いて、集合値予測器のカバレッジと効率の一般化境界を求める。
我々はこれらの理論結果を活用し、キャリブレーションデータを用いてモデルのパラメータやスコア関数を微調整する実用的なアルゴリズムを提供する。
我々は, 回帰および分類タスクに対するアプローチの評価を行い, ICP 上の Hoeffding bound-based PAC 保証を用いて, 基準値の調整を行った。
論文 参考訳(メタデータ) (2023-12-07T19:40:44Z) - Uncertainty Estimation for Safety-critical Scene Segmentation via
Fine-grained Reward Maximization [12.79542334840646]
不確実性推定は、安全クリティカルなシナリオにおけるディープセグメンテーションモデルの将来の信頼性の高い展開において重要な役割を果たす。
本研究では,不確実性推定に対処する新たな微粒化報酬(FGRM)フレームワークを提案する。
本手法は,不確実性推定のキャリブレーション指標のすべてに対して,最先端の手法よりも明確なマージンで優れる。
論文 参考訳(メタデータ) (2023-11-05T17:43:37Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Learning Robust Output Control Barrier Functions from Safe Expert Demonstrations [50.37808220291108]
本稿では,専門家によるデモンストレーションの部分的な観察から,安全な出力フィードバック制御法を考察する。
まず,安全性を保証する手段として,ロバスト出力制御バリア関数(ROCBF)を提案する。
次に、安全なシステム動作を示す専門家による実証からROCBFを学習するための最適化問題を定式化する。
論文 参考訳(メタデータ) (2021-11-18T23:21:00Z) - PDC-Net+: Enhanced Probabilistic Dense Correspondence Network [161.76275845530964]
高度確率密度対応ネットワーク(PDC-Net+)は、精度の高い高密度対応を推定できる。
我々は、堅牢で一般化可能な不確実性予測に適したアーキテクチャと強化されたトレーニング戦略を開発する。
提案手法は,複数の挑戦的幾何マッチングと光学的フローデータセットに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-09-28T17:56:41Z) - A bandit-learning approach to multifidelity approximation [7.960229223744695]
マルチファイデリティ近似は、科学計算とシミュレーションにおいて重要な技術である。
異なる忠実度のデータを利用して正確な推定を行うためのバンディットラーニング手法を紹介します。
論文 参考訳(メタデータ) (2021-03-29T05:29:35Z) - Learning Accurate Dense Correspondences and When to Trust Them [161.76275845530964]
2つの画像に関連する密度の高い流れ場と、堅牢な画素方向の信頼度マップの推定を目指しています。
フロー予測とその不確実性を共同で学習するフレキシブルな確率的アプローチを開発する。
本手法は,幾何学的マッチングと光フローデータセットに挑戦する最新の結果を得る。
論文 参考訳(メタデータ) (2021-01-05T18:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。