論文の概要: Aurora: Are Android Malware Classifiers Reliable under Distribution Shift?
- arxiv url: http://arxiv.org/abs/2505.22843v1
- Date: Wed, 28 May 2025 20:22:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.525898
- Title: Aurora: Are Android Malware Classifiers Reliable under Distribution Shift?
- Title(参考訳): Aurora: Androidのマルウェア分類は配布シフト下で信頼性が高いか?
- Authors: Alexander Herzog, Aliai Eusebi, Lorenzo Cavallaro,
- Abstract要約: AURORAは、その信頼性と運用上のレジリエンスに基づいて、マルウェア分類器を評価するためのフレームワークである。
AURORAはさらに、ポイント・イン・タイムのパフォーマンスを超えるように設計されたメトリクスのセットによって補完されている。
最先端のフレームワークで観察する脆弱さは、ホワイトボードに戻る必要性を示唆している。
- 参考スコア(独自算出の注目度): 51.12297424766236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance figures of modern drift-adaptive malware classifiers appear promising, but does this translate to genuine operational reliability? The standard evaluation paradigm primarily focuses on baseline performance metrics, neglecting confidence-error alignment and operational stability. While TESSERACT established the importance of temporal evaluation, we take a complementary direction by investigating whether malware classifiers maintain reliable confidence estimates under distribution shifts and exploring the tensions between scientific advancement and practical impacts when they do not. We propose AURORA, a framework to evaluate malware classifiers based on their confidence quality and operational resilience. AURORA subjects the confidence profile of a given model to verification to assess the reliability of its estimates. Unreliable confidence estimates erode operational trust, waste valuable annotation budget on non-informative samples for active learning, and leave error-prone instances undetected in selective classification. AURORA is further complemented by a set of metrics designed to go beyond point-in-time performance, striving towards a more holistic assessment of operational stability throughout temporal evaluation periods. The fragility we observe in state-of-the-art frameworks across datasets of varying drift severity suggests the need for a return to the whiteboard.
- Abstract(参考訳): 現代のドリフト適応型マルウェア分類器の性能は有望と思われるが、これは真の運用上の信頼性を意味するのだろうか?
標準評価パラダイムは主に、信頼性とエラーのアライメントと運用上の安定性を無視した、ベースラインのパフォーマンス指標に焦点を当てている。
TESSERACTが時間的評価の重要性を確立した一方で、マルウェア分類器が分布シフトの下で信頼性の高い信頼度を保っているかどうかを検証し、科学的進歩と実践的影響の緊張関係を調査することで、補完的な方向を採っている。
AURORAは,その信頼性と運用上のレジリエンスに基づいて,マルウェア分類器の評価を行うフレームワークである。
AURORAは、与えられたモデルの信頼性プロファイルを使用して、その推定の信頼性を評価する。
信頼できない信頼度は、運用上の信頼を損なうこと、アクティブな学習のための非情報的サンプルに対する無駄な価値あるアノテーション予算を見積もる。
AURORAはさらに、ポイント・イン・タイムのパフォーマンスを超えて、時間的評価期間を通じて運用の安定性をより包括的に評価するために設計されたメトリクスのセットによって補完されている。
さまざまな漂流度を持つデータセットをまたいだ最先端フレームワークで私たちが観察する脆弱さは、ホワイトボードへの復帰の必要性を示唆している。
関連論文リスト
- MCQA-Eval: Efficient Confidence Evaluation in NLG with Gold-Standard Correctness Labels [16.300463494913593]
大規模言語モデル (LLM) には堅牢な信頼度推定が必要である。
McQCA-Evalは、自然言語生成における信頼度を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-02-20T05:09:29Z) - ReliOcc: Towards Reliable Semantic Occupancy Prediction via Uncertainty Learning [26.369237406972577]
視覚中心のセマンティック占有予測は、自律運転において重要な役割を果たす。
カメラからのセマンティック占有率を予測するための信頼性を探求する研究は、まだ少ない。
本稿では,カメラによる占有ネットワークの信頼性向上を目的としたReliOccを提案する。
論文 参考訳(メタデータ) (2024-09-26T16:33:16Z) - Trustworthiness for an Ultra-Wideband Localization Service [2.4979362117484714]
本稿では,超広帯域自己ローカライゼーションのための総合的信頼性評価フレームワークを提案する。
我々の目標は、客観的な証拠に基づいてシステムの信頼性を評価するためのガイダンスを提供することである。
我々のアプローチは、結果の信頼性指標が、選択された現実世界の脅威に対応することを保証します。
論文 参考訳(メタデータ) (2024-08-10T11:57:10Z) - Revisiting Confidence Estimation: Towards Reliable Failure Prediction [53.79160907725975]
多くの信頼度推定法は誤分類誤りを検出するのに有害である。
本稿では, 最先端の故障予測性能を示す平坦な最小値を求めることにより, 信頼性ギャップを拡大することを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:44:14Z) - SureFED: Robust Federated Learning via Uncertainty-Aware Inward and
Outward Inspection [29.491675102478798]
本稿では,堅牢なフェデレーション学習のための新しいフレームワークであるSureFEDを紹介する。
SureFEDは、良識のあるクライアントのローカル情報を使って信頼を確立する。
理論的には、データとモデル中毒攻撃に対するアルゴリズムの堅牢性を証明する。
論文 参考訳(メタデータ) (2023-08-04T23:51:05Z) - TrustGuard: GNN-based Robust and Explainable Trust Evaluation with
Dynamicity Support [59.41529066449414]
本稿では,信頼度を考慮した信頼度評価モデルであるTrustGuardを提案する。
TrustGuardは、スナップショット入力層、空間集約層、時間集約層、予測層を含む階層アーキテクチャで設計されている。
実験により、TrustGuardは、シングルタイムスロットとマルチタイムスロットの信頼予測に関して、最先端のGNNベースの信頼評価モデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-06-23T07:39:12Z) - Trust, but Verify: Using Self-Supervised Probing to Improve
Trustworthiness [29.320691367586004]
我々は、訓練されたモデルに対する自信の過剰な問題をチェックおよび緩和することのできる、自己教師型探索の新しいアプローチを導入する。
既存の信頼性関連手法に対して,プラグイン・アンド・プレイ方式で柔軟に適用可能な,シンプルで効果的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-06T08:57:20Z) - Adversarial Robustness on In- and Out-Distribution Improves
Explainability [109.68938066821246]
RATIOは、Adversarial Training on In- and Out-distriionを通じて、堅牢性のためのトレーニング手順である。
RATIOはCIFAR10で最先端の$l$-adrialを実現し、よりクリーンな精度を維持している。
論文 参考訳(メタデータ) (2020-03-20T18:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。