論文の概要: Robustness Quantification and Uncertainty Quantification: Comparing Two Methods for Assessing the Reliability of Classifier Predictions
- arxiv url: http://arxiv.org/abs/2603.22988v1
- Date: Tue, 24 Mar 2026 09:31:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.406093
- Title: Robustness Quantification and Uncertainty Quantification: Comparing Two Methods for Assessing the Reliability of Classifier Predictions
- Title(参考訳): ロバストネスの定量化と不確かさの定量化:分類器予測の信頼性を評価する2つの方法の比較
- Authors: Adrián Detavernier, Jasper De Bock,
- Abstract要約: 分類器の個人予測の信頼性を評価するために,ロバストネス量化(RQ)と不確実性量化(UQ)の2つのアプローチを検討する。
RQは、標準設定と分布シフトの有無の両方において、UQを上回り得ることを示す。
また、RQとUQの相補性を実証し、両方のアプローチの組み合わせがより優れた信頼性評価につながることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider two approaches for assessing the reliability of the individual predictions of a classifier: Robustness Quantification (RQ) and Uncertainty Quantification (UQ). We explain the conceptual differences between the two approaches, compare both approaches on a number of benchmark datasets and show that RQ is capable of outperforming UQ, both in a standard setting and in the presence of distribution shift. Beside showing that RQ can be competitive with UQ, we also demonstrate the complementarity of RQ and UQ by showing that a combination of both approaches can lead to even better reliability assessments.
- Abstract(参考訳): 本稿では,ロバストネス定量化(RQ)と不確実性定量化(UQ)という,分類器の個々の予測の信頼性を評価するための2つの手法を検討する。
この2つのアプローチ間の概念的差異を説明し、多くのベンチマークデータセットで両方のアプローチを比較し、RQが標準設定と分布シフトの有無の両方でUQより優れていることを示す。
RQ が UQ と競合できることを示すだけでなく、RQ と UQ の相補性も示す。
関連論文リスト
- Robustness and uncertainty: two complementary aspects of the reliability of the predictions of a classifier [0.0]
分類器の個人予測の信頼性を評価するために,ロバストネス量化(RQ)と不確実性量化(UQ)の2つのアプローチを検討する。
両アプローチを複数のベンチマークデータセットで比較し、両者の間に明確な勝者は存在しないが、相補的であり、RQとUQのどちらよりも優れたハイブリッドアプローチを得るために組み合わせることができることを示す。
論文 参考訳(メタデータ) (2025-12-17T14:40:14Z) - Confidence-guided Refinement Reasoning for Zero-shot Question Answering [19.796455166690187]
C2R(Confidence-guided Refinement Reasoning)は、テキスト、画像、ビデオドメインにわたる質問応答タスクに適用可能な、新しいトレーニングフリーフレームワークである。
C2Rは戦略的にサブクエストとそれらの回答(サブQA)を構築し、洗練し、ターゲットの回答に対してより良い信頼スコアを得る。
論文 参考訳(メタデータ) (2025-09-25T05:15:12Z) - Uncertainty Quantification for LLMs through Minimum Bayes Risk: Bridging Confidence and Consistency [66.96286531087549]
大規模言語モデル(LLM)のための不確実性定量化(UQ)手法は、様々なアプローチを含んでいる。
本稿では,モデル信頼度と出力整合性を統合する新しい手法を提案する。
我々は,質問応答,抽象要約,機械翻訳など,様々なタスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-02-07T14:30:12Z) - Addressing Uncertainty in LLMs to Enhance Reliability in Generative AI [47.64301863399763]
中国レストランプロセスに触発された動的セマンティッククラスタリング手法を提案する。
生成したセマンティッククラスタのエントロピーを計算することにより,あるクエリ上でのLarge Language Model(LLM)の不確実性を定量化する。
本稿では,これらのクラスタの(負の)確率を,コンフォーマル予測フレームワーク内の(非)整合性スコアとして活用することを提案する。
論文 参考訳(メタデータ) (2024-11-04T18:49:46Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - Counterfactual Variable Control for Robust and Interpretable Question
Answering [57.25261576239862]
ディープニューラルネットワークに基づく質問応答(QA)モデルは、多くの場合、堅牢でも説明もできない。
本稿では、因果推論を用いてQAモデルのこのような突発的な「能力」を検証する。
本稿では,任意のショートカット相関を明示的に緩和する,CVC(Counterfactual Variable Control)という新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T10:09:05Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。