論文の概要: Multi-Layer Confidence Scoring for Detection of Out-of-Distribution Samples, Adversarial Attacks, and In-Distribution Misclassifications
- arxiv url: http://arxiv.org/abs/2512.19472v1
- Date: Mon, 22 Dec 2025 15:25:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.802941
- Title: Multi-Layer Confidence Scoring for Detection of Out-of-Distribution Samples, Adversarial Attacks, and In-Distribution Misclassifications
- Title(参考訳): 分布外サンプルの検出, 敵攻撃, 分布内ミス分類のための多層信頼スコアリング
- Authors: Lorenzo Capelli, Leandro de Souza Rosa, Gianluca Setti, Mauro Mangia, Riccardo Rovatti,
- Abstract要約: 我々は,Multi-Layer Analysis for Confidence Scoring (MACS)を紹介する。
我々は、信頼度推定、分布シフトの検出、敵攻撃に当てはまるスコアを導出する。
VGG16 と ViTb16 モデルを用いた実験では,最先端のアプローチを超越した性能を実現している。
- 参考スコア(独自算出の注目度): 2.4219039094115034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent explosive growth in Deep Neural Networks applications raises concerns about the black-box usage of such models, with limited trasparency and trustworthiness in high-stakes domains, which have been crystallized as regulatory requirements such as the European Union Artificial Intelligence Act. While models with embedded confidence metrics have been proposed, such approaches cannot be applied to already existing models without retraining, limiting their broad application. On the other hand, post-hoc methods, which evaluate pre-trained models, focus on solving problems related to improving the confidence in the model's predictions, and detecting Out-Of-Distribution or Adversarial Attacks samples as independent applications. To tackle the limited applicability of already existing methods, we introduce Multi-Layer Analysis for Confidence Scoring (MACS), a unified post-hoc framework that analyzes intermediate activations to produce classification-maps. From the classification-maps, we derive a score applicable for confidence estimation, detecting distributional shifts and adversarial attacks, unifying the three problems in a common framework, and achieving performances that surpass the state-of-the-art approaches in our experiments with the VGG16 and ViTb16 models with a fraction of their computational overhead.
- Abstract(参考訳): 近年のDeep Neural Networksアプリケーションにおける爆発的な成長は、欧州連合人工知能法(EU)などの規制要件として結晶化されている高信頼領域におけるトラスペランスと信頼性の制限による、そのようなモデルのブラックボックス使用に関する懸念を提起している。
信頼度基準を組み込んだモデルが提案されているが、そのようなアプローチは既存のモデルに適用することはできない。
一方,事前学習モデルの評価を行うポストホック法では,モデル予測の信頼性向上や,アウトオブオフ・ディストリビューション・アタック・サンプルを独立したアプリケーションとして検出する問題に焦点が当てられている。
既存の手法の限定的な適用性に対処するために、中間活性化を解析して分類マップを生成する統合されたポストホックフレームワークであるMulti-Layer Analysis for Confidence Scoring(MACS)を導入する。
分類図から、信頼度推定、分布シフトの検出、敵攻撃、共通フレームワークにおける3つの問題の統合、VGG16モデルとVTb16モデルを用いた実験における最先端のアプローチを超える性能の達成などに適用可能なスコアを導出する。
関連論文リスト
- Did Models Sufficient Learn? Attribution-Guided Training via Subset-Selected Counterfactual Augmentation [61.248535801314375]
Subset-Selected Counterfactual Augmentation (SS-CA)
我々は,モデル予測を選択的に変更可能な最小空間領域集合を識別するために,対実的LIMAを開発した。
実験により,SS-CAは分布内テストデータ(ID)の一般化を改善し,分布外ベンチマーク(OOD)において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-15T08:39:22Z) - The Tail Tells All: Estimating Model-Level Membership Inference Vulnerability Without Reference Models [8.453525669833853]
本稿では,モデルレベルの脆弱性である低FPRにおけるTPRを,参照モデルを必要としないメンバシップ推論攻撃に推定するための新しいアプローチを提案する。
本手法は,RMIAなどの低コスト(参照モデル)攻撃と,他の分布差の測定値よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-10-22T17:03:55Z) - Reference-Specific Unlearning Metrics Can Hide the Truth: A Reality Check [60.77691669644931]
本研究では,非学習モデルと参照モデル間の分布類似度を測定する新しい尺度であるFADE(Functional Alignment for Distributional Equivalence)を提案する。
FADEは出力分布全体の機能的アライメントをキャプチャし、真の未学習の原則的評価を提供する。
これらの知見は、現在の評価実践における根本的なギャップを明らかにし、FADEが真に効果的な未学習手法を開発し評価するための、より堅牢な基盤を提供することを示した。
論文 参考訳(メタデータ) (2025-10-14T20:50:30Z) - STEP: Structured Training and Evaluation Platform for benchmarking trajectory prediction models [7.927039780654076]
複数のデータセットに統一されたインターフェースを提供することで制限に対処する新しいベンチマークフレームワークであるSTEPを紹介します。
筆者らは,1)広く利用されている試験手順の限界,2) 相互作用予測のためのエージェントの協調モデリングの重要性,3) 分散シフトおよび敵エージェントによる標的攻撃に対する現在の最先端モデルの脆弱性を明らかにする実験でSTEPの能力を実証した。
論文 参考訳(メタデータ) (2025-09-18T09:56:16Z) - Confidence in Large Language Model Evaluation: A Bayesian Approach to Limited-Sample Challenges [13.526258635654882]
本研究では,大規模言語モデル(LLM)能力評価のためのベイズ的アプローチを提案する。
モデル機能を潜時変数として扱い、キュレートされたクエリセットを利用して識別応答を誘導する。
GPTシリーズモデルを用いた実験により,提案手法は従来の評価手法よりも優れた識別性が得られることが示された。
論文 参考訳(メタデータ) (2025-04-30T04:24:50Z) - A Meaningful Perturbation Metric for Evaluating Explainability Methods [55.09730499143998]
本稿では,画像生成モデルを用いて標的摂動を行う新しい手法を提案する。
具体的には,画像の忠実さを保ちながら,入力画像の高関連画素のみを塗布し,モデルの予測を変更することに焦点を当てる。
これは、しばしばアウト・オブ・ディストリビューションの修正を生み出し、信頼できない結果をもたらす既存のアプローチとは対照的である。
論文 参考訳(メタデータ) (2025-04-09T11:46:41Z) - Towards Evaluating Transfer-based Attacks Systematically, Practically,
and Fairly [79.07074710460012]
ディープニューラルネットワーク(DNN)の敵対的脆弱性に大きな注目を集めている。
ブラックボックスDNNモデルを騙すための転送ベース手法が増えている。
30以上のメソッドを実装した転送ベースアタックベンチマーク(TA-Bench)を確立する。
論文 参考訳(メタデータ) (2023-11-02T15:35:58Z) - Multiclass Alignment of Confidence and Certainty for Network Calibration [10.15706847741555]
最近の研究では、ディープニューラルネットワーク(DNN)が過信的な予測を行う傾向があることが示されている。
予測平均信頼度と予測確実性(MACC)の多クラスアライメントとして知られる簡易なプラグアンドプレイ補助損失を特徴とする列車時キャリブレーション法を提案する。
本手法は,領域内および領域外両方のキャリブレーション性能を実現する。
論文 参考訳(メタデータ) (2023-09-06T00:56:24Z) - Towards Trustworthy Predictions from Deep Neural Networks with Fast
Adversarial Calibration [2.8935588665357077]
本稿では,ドメインシフト後に得られたサンプルに対して,信頼度の高い信頼度を得るための効率的かつ汎用的なモデリング手法を提案する。
本稿では,エントロピー増大損失項と逆キャリブレーション損失項を組み合わせた新しいトレーニング戦略を導入し,この結果が適切に調整され,技術的に信頼できる予測となることを示す。
論文 参考訳(メタデータ) (2020-12-20T13:39:29Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。