Fugu-MT 論文翻訳(概要): New Statistical Framework for Extreme Error Probability in High-Stakes Domains for Reliable Machine Learning

論文の概要: New Statistical Framework for Extreme Error Probability in High-Stakes Domains for Reliable Machine Learning

arxiv url: http://arxiv.org/abs/2503.24262v1
Date: Mon, 31 Mar 2025 16:08:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-01 19:35:57.493258
Title: New Statistical Framework for Extreme Error Probability in High-Stakes Domains for Reliable Machine Learning
Title（参考訳）: 信頼度の高い機械学習領域における極端誤差確率の統計的枠組み
Authors: Umberto Michelucci, Francesca Venturini,
Abstract要約: 極端な価値理論(EVT)は、最悪のケースの失敗を推定するための厳密なアプローチを提供する統計フレームワークである。 EVTを合成および実世界のデータセットに適用することにより、破滅的故障確率のロバストな推定を可能にする。この作業は、EVTをモデルの信頼性を評価し、新しいテクノロジにおけるより安全なAIデプロイメントを保証するための基本的なツールとして確立する。
参考スコア（独自算出の注目度）: 4.14360329494344
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Machine learning is vital in high-stakes domains, yet conventional validation methods rely on averaging metrics like mean squared error (MSE) or mean absolute error (MAE), which fail to quantify extreme errors. Worst-case prediction failures can have substantial consequences, but current frameworks lack statistical foundations for assessing their probability. In this work a new statistical framework, based on Extreme Value Theory (EVT), is presented that provides a rigorous approach to estimating worst-case failures. Applying EVT to synthetic and real-world datasets, this method is shown to enable robust estimation of catastrophic failure probabilities, overcoming the fundamental limitations of standard cross-validation. This work establishes EVT as a fundamental tool for assessing model reliability, ensuring safer AI deployment in new technologies where uncertainty quantification is central to decision-making or scientific analysis.
Abstract（参考訳）: 機械学習は高い領域において不可欠だが、従来の検証方法は平均二乗誤差(MSE)や平均絶対誤差(MAE)といった平均的なメトリクスに依存しており、極端なエラーを定量化できない。最悪の予測失敗は重大な結果をもたらす可能性があるが、現在のフレームワークは確率を評価するための統計的基盤を欠いている。エクストリームバリュー理論(EVT)に基づく新しい統計フレームワークが提示され、最悪のケースの失敗を推定するための厳密なアプローチを提供する。 EVTを合成および実世界のデータセットに適用することにより、標準的なクロスバリデーションの基本的な制限を克服し、破滅的故障確率のロバストな推定を可能にすることが示されている。この研究は、EVTをモデル信頼性を評価するための基本的なツールとして確立し、不確実性定量化が意思決定や科学的分析の中心となる新しい技術におけるより安全なAIデプロイメントを保証する。

関連論文リスト

I-trustworthy Models. A framework for trustworthiness evaluation of probabilistic classifiers [0.18416014644193066]
この研究は、推論タスクの確率論の信頼性を評価するための新しいフレームワークである、信頼に値するフレームワークを定式化する。 I-trustworthinessを評価するために,局所校正誤差(LCE)を用いて仮説検証法を開発した。誤診の場合のバイアスを識別し,測定するための診断ツールを提案する。
論文参考訳（メタデータ） (2025-01-26T17:54:43Z)
Beyond Calibration: Assessing the Probabilistic Fit of Neural Regressors via Conditional Congruence [2.2359781747539396]
ディープネットワークは、しばしば過剰な自信と不一致な予測分布に悩まされる。本稿では,条件付きカーネルの平均埋め込みを用いて,学習した予測分布とデータセットにおける経験的条件分布との距離を推定する,条件付きコングルーエンス誤差(CCE)について紹介する。本研究では,1)データ生成プロセスが知られている場合の分布間の不一致を正確に定量化し,2)実世界の高次元画像回帰タスクに効果的にスケールし,3)未知のインスタンス上でのモデルの信頼性を評価することができることを示す。
論文参考訳（メタデータ） (2024-05-20T23:30:07Z)
Weak Supervision Performance Evaluation via Partial Identification [46.73061437177238]
Programmatic Weak Supervision (PWS) は、地上の真理ラベルに直接アクセスすることなく、教師付きモデルトレーニングを可能にする。本稿では,モデル評価を部分的同定問題としてフレーミングすることで,この問題に対処する新しい手法を提案する。提案手法は,従来の弱監督評価手法において,ラベル付きデータを必要とせず,重要な指標に信頼性のあるバウンダリを導出する。
論文参考訳（メタデータ） (2023-12-07T07:15:11Z)
Distribution-free risk assessment of regression-based machine learning algorithms [6.507711025292814]
我々は回帰アルゴリズムとモデル予測の周囲に定義された区間内に存在する真のラベルの確率を計算するリスク評価タスクに焦点をあてる。そこで,本研究では,正のラベルを所定の確率で含むことが保証される予測区間を提供する共形予測手法を用いてリスク評価問題を解決する。
論文参考訳（メタデータ） (2023-10-05T13:57:24Z)
Model-free generalized fiducial inference [0.0]
本稿では,不正確な確率的予測推定のためのモデルフリー統計フレームワークの提案と開発を行う。このフレームワークは、タイプ1エラーの有限サンプル制御を提供する予測セットの形式での不確実性定量化を促進する。モデルフリー不正確なフレームワークに対する正確な確率近似の理論的および経験的特性について考察する。
論文参考訳（メタデータ） (2023-07-24T01:58:48Z)
Lightweight, Uncertainty-Aware Conformalized Visual Odometry [2.429910016019183]
データ駆動型ビジュアルオドメトリー(VO)は、自律エッジロボティクスにとって重要なサブルーチンである。昆虫スケールドローンや外科ロボットのような最先端ロボットデバイスは、VOの予測の不確実性を推定する計算的に効率的な枠組みを欠いている。本稿では,共形推論(CI)を利用してVOの不確実な帯域を抽出する,新しい,軽量で統計的に堅牢なフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-03T20:37:55Z)
Uncertainty in Extreme Multi-label Classification [81.14232824864787]
eXtreme Multi-label Classification (XMC)は、Webスケールの機械学習アプリケーションにおいて、ビッグデータの時代において不可欠なタスクである。本稿では,確率的アンサンブルに基づく木系XMCモデルの一般的な不確実性定量化手法について検討する。特に,XMCにおけるラベルレベルおよびインスタンスレベルの不確実性を解析し,ビームサーチに基づく一般的な近似フレームワークを提案する。
論文参考訳（メタデータ） (2022-10-18T20:54:33Z)
Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文参考訳（メタデータ） (2022-01-11T23:01:12Z)
CC-Cert: A Probabilistic Approach to Certify General Robustness of Neural Networks [58.29502185344086]
安全クリティカルな機械学習アプリケーションでは、モデルを敵の攻撃から守ることが不可欠である。意味的に意味のある入力変換に対して、ディープラーニングモデルの証明可能な保証を提供することが重要である。我々はChernoff-Cramer境界に基づく新しい普遍確率的証明手法を提案する。
論文参考訳（メタデータ） (2021-09-22T12:46:04Z)
Approaching Neural Network Uncertainty Realism [53.308409014122816]
自動運転車などの安全クリティカルなシステムには、定量化または少なくとも上限の不確実性が不可欠です。マハラノビス距離に基づく統計的テストにより、厳しい品質基準である不確実性リアリズムを評価します。自動車分野に採用し、プレーンエンコーダデコーダモデルと比較して、不確実性リアリズムを大幅に改善することを示した。
論文参考訳（メタデータ） (2021-01-08T11:56:12Z)
Trust but Verify: Assigning Prediction Credibility by Counterfactual Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文参考訳（メタデータ） (2020-11-24T19:52:38Z)
Failure Prediction by Confidence Estimation of Uncertainty-Aware Dirichlet Networks [6.700873164609009]
不確実性を考慮したディープディリクレニューラルネットワークは、真のクラス確率計量における正しい予測と誤予測の信頼性の分離を改善できることが示されている。不均衡とTCP制約を考慮に入れながら、予測信頼度と一致させることで、真のクラス確率を学習するための新しい基準を提案する。
論文参考訳（メタデータ） (2020-10-19T21:06:45Z)
Evaluating probabilistic classifiers: Reliability diagrams and score decompositions revisited [68.8204255655161]
確率的に統計的に一貫性があり、最適に結合し、再現可能な信頼性図を自動生成するCORP手法を導入する。コーパスは非パラメトリックアイソトニック回帰に基づいており、プール・アジャセント・ヴァイオレータ(PAV)アルゴリズムによって実装されている。
論文参考訳（メタデータ） (2020-08-07T08:22:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。