Fugu-MT 論文翻訳(概要): $ECUAS_n$: A family of metrics for principled evaluation of uncertainty-augmented systems

論文の概要: $ECUAS_n$: A family of metrics for principled evaluation of uncertainty-augmented systems

arxiv url: http://arxiv.org/abs/2605.20490v2
Date: Thu, 21 May 2026 03:50:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-22 16:35:41.906899
Title: $ECUAS_n$: A family of metrics for principled evaluation of uncertainty-augmented systems
Title（参考訳）: $ECUAS_n$:不確実性拡張システムの原則評価のためのメトリクスのファミリー
Authors: Lautaro Estienne, Erik Ernst, Matías Vera, Pablo Piantanida, Luciana Ferrer,
Abstract要約: 高精度な自動意思決定では、予測の不確実性へのアクセスが不可欠である。本稿では,興味ある課題に対する適切なスコアリングルールとして定式化された新しいメトリクス群である$ECUAS_n$を提案する。
参考スコア（独自算出の注目度）: 22.79149311211994
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In high-stakes automated decision-making, access to predictive uncertainty is essential for enabling users -- human or downstream systems -- to accept or reject predictions based on application-specific cost trade-offs. Such uncertainty-augmented (UA) systems -- i.e., systems that output both predictions and uncertainty scores -- are currently being assessed in the literature in a variety of ways, using separate metrics to evaluate the predictions and the uncertainty scores, setting a cost function with a fixed rejection cost or integrating over a coverage-risk curve. We argue that these evaluation approaches are inadequate for assessing overall performance of the UA system for decision making under uncertainty and propose a novel family of metrics, $ECUAS_n$, formulated as proper scoring rules for the task of interest. The parameter $n$ controls the trade-off between the cost of incorrect predictions and imperfect uncertainties depending on the needs of the use-case. We demonstrate the advantages of the $ECUAS_n$ metrics both theoretically and empirically, through experiments on diverse classification and generation datasets, including a manually annotated subset of TriviaQA.
Abstract（参考訳）: 高度な自動意思決定では、ユーザ(人間または下流システム)がアプリケーション固有のコストトレードオフに基づいた予測を受け入れたり拒否したりする上で、予測の不確実性へのアクセスが不可欠である。このような不確実性拡張(UA)システム(すなわち、予測と不確実性スコアの両方を出力するシステム)は、現在様々な方法で文献で評価されており、予測と不確実性スコアを評価するために別々のメトリクスを使用して、固定された拒絶コストでコスト関数を設定したり、カバレッジリスク曲線上で統合したりしている。これらの評価手法は、不確実性のある意思決定のためのUAシステム全体の性能を評価するには不十分であり、興味のあるタスクの適切なスコアリングルールとして定式化された新しい指標である$ECUAS_n$を提案する。パラメータ$n$は、誤予測のコストとユースケースのニーズに応じて不完全な不確実性の間のトレードオフを制御する。我々は、TriviaQAの注釈付きサブセットを含む多様な分類と生成データセットの実験を通じて、理論的にも経験的にも、$ECUAS_n$のメトリクスの利点を実証する。

関連論文リスト

Rethinking XAI Evaluation: A Human-Centered Audit of Shapley Benchmarks in High-Stakes Settings [8.934085986179019]
共有価値は、説明可能なAIの基盤だが、競合する定式化への拡散は、断片化された風景を生み出している。 8つのShapley変種間のセマンティックな差異を分離するために、統一アモータイズされたフレームワークを使用します。空間性や忠実性などの標準的な定量的指標は、人間の知覚的明確性や決定性から切り離されている。
論文参考訳（メタデータ） (2026-04-24T15:38:44Z)
Entropy Alone is Insufficient for Safe Selective Prediction in LLMs [20.664633053172327]
選択予測システムは、高リスクケースでの回答を控えることで、言語モデル幻覚による害を軽減することができる。不確実性定量化技術はしばしばそのようなケースを特定するために用いられるが、より広い選択的予測ポリシーの文脈で評価されることはほとんどない。エントロピーに基づく不確実性手法のモデル依存的故障モードを同定し、エントロピースコアと正当性プローブ信号を組み合わせることで、信頼できない禁忌行動に対処する。
論文参考訳（メタデータ） (2026-03-22T11:27:13Z)
Addressing Pitfalls in the Evaluation of Uncertainty Estimation Methods for Natural Language Generation [20.726685669562496]
幻覚は、大きな言語モデル(LLM)の信頼性を損なう一般的な問題である。近年の研究では、LLMの予測的不確実性によって生じる幻覚のサブセット、すなわち confabulations が特定されている。衝突を検出するため,自然言語生成における予測不確かさを推定する様々な手法が開発されている。
論文参考訳（メタデータ） (2025-10-02T17:54:09Z)
Uncertainty Quantification for Regression using Proper Scoring Rules [76.24649098854219]
CRPS,対数,2乗誤差,2次スコアなど,適切なスコアリングルールに基づく回帰のための統一的UQフレームワークを提案する。実測パラメトリックな仮定に基づく不確実性尺度に対する閉形式式を導出し、モデルのアンサンブルを用いてそれらを推定する方法を示す。合成および実世界の回帰データセットに対する広範な評価は、信頼性の高いUQ尺度を選択するためのガイダンスを提供する。
論文参考訳（メタデータ） (2025-09-30T17:52:12Z)
SConU: Selective Conformal Uncertainty in Large Language Models [59.25881667640868]
SconU(Selective Conformal Uncertainity)と呼ばれる新しいアプローチを提案する。我々は,特定の管理可能なリスクレベルで設定されたキャリブレーションの不確実性分布から,与えられたサンプルが逸脱するかどうかを決定するのに役立つ2つの共形p値を開発する。我々のアプローチは、単一ドメインと学際的コンテキストの両方にわたる誤発見率の厳密な管理を促進するだけでなく、予測の効率を高める。
論文参考訳（メタデータ） (2025-04-19T03:01:45Z)
Quantification of Predictive Uncertainty via Inference-Time Sampling [57.749601811982096]
本稿では,データあいまいさの予測不確実性を推定するためのポストホックサンプリング手法を提案する。この方法は与えられた入力に対して異なる可算出力を生成することができ、予測分布のパラメトリック形式を仮定しない。
論文参考訳（メタデータ） (2023-08-03T12:43:21Z)
Robust Design and Evaluation of Predictive Algorithms under Unobserved Confounding [6.925076885159747]
本稿では,予測アルゴリズムの堅牢な設計と評価のためのフレームワークを提案する。様々な不確定な仮定が、所得グループ間での信用リスク予測と公平性評価に大きく影響していることが示される。
論文参考訳（メタデータ） (2022-12-19T20:41:44Z)
Uncertainty-Driven Action Quality Assessment [11.958132175629368]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文参考訳（メタデータ） (2022-07-29T07:21:15Z)
DEUP: Direct Epistemic Uncertainty Prediction [56.087230230128185]
認識の不確実性は、学習者の知識の欠如によるサンプル外の予測エラーの一部である。一般化誤差の予測を学習し, aleatoric uncertaintyの推定を減算することで, 認識的不確かさを直接推定する原理的アプローチを提案する。
論文参考訳（メタデータ） (2021-02-16T23:50:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。