論文の概要: Aurora: Are Android Malware Classifiers Reliable and Stable under Distribution Shift?
- arxiv url: http://arxiv.org/abs/2505.22843v2
- Date: Wed, 25 Jun 2025 09:30:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 14:36:56.376281
- Title: Aurora: Are Android Malware Classifiers Reliable and Stable under Distribution Shift?
- Title(参考訳): Aurora: Androidのマルウェア分類器は信頼性が高く、分散シフト下で安定しているか?
- Authors: Alexander Herzog, Aliai Eusebi, Lorenzo Cavallaro,
- Abstract要約: AURORAは、その信頼性と運用上のレジリエンスに基づいて、マルウェア分類器を評価するためのフレームワークである。
AURORAは、ポイント・イン・タイムのパフォーマンスを超えるように設計されたメトリクスのセットによって補完される。
さまざまなドリフトのデータセットにわたるSOTAフレームワークの脆弱性は、ホワイトボードへの復帰の必要性を示唆している。
- 参考スコア(独自算出の注目度): 51.12297424766236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance figures of modern drift-adaptive malware classifiers appear promising, but does this translate to genuine operational reliability? The standard evaluation paradigm primarily focuses on baseline performance metrics, neglecting confidence-error alignment and operational stability. While TESSERACT established the importance of temporal evaluation, we take a complementary direction by investigating whether malware classifiers maintain reliable and stable confidence estimates under distribution shifts and exploring the tensions between scientific advancement and practical impacts when they do not. We propose AURORA, a framework to evaluate malware classifiers based on their confidence quality and operational resilience. AURORA subjects the confidence profile of a given model to verification to assess the reliability of its estimates. Unreliable confidence estimates erode operational trust, waste valuable annotation budget on non-informative samples for active learning, and leave error-prone instances undetected in selective classification. AURORA is complemented by a set of metrics designed to go beyond point-in-time performance, striving towards a more holistic assessment of operational stability throughout temporal evaluation periods. The fragility in SOTA frameworks across datasets of varying drift suggests the need for a return to the whiteboard.
- Abstract(参考訳): 現代のドリフト適応型マルウェア分類器の性能は有望と思われるが、これは真の運用上の信頼性を意味するのだろうか?
標準評価パラダイムは主に、信頼性とエラーのアライメントと運用上の安定性を無視した、ベースラインのパフォーマンス指標に焦点を当てている。
TESSERACTが時間的評価の重要性を確立した一方で、マルウェア分類器が分布シフトの下で信頼性と信頼性を保ち、科学的進歩と実践的影響の緊張関係を調査することで、補完的な方向を採っている。
AURORAは,その信頼性と運用上のレジリエンスに基づいて,マルウェア分類器の評価を行うフレームワークである。
AURORAは、与えられたモデルの信頼性プロファイルを使用して、その推定の信頼性を評価する。
信頼できない信頼度は、運用上の信頼を損なうこと、アクティブな学習のための非情報的サンプルに対する無駄な価値あるアノテーション予算を見積もる。
AURORAは、ポイント・イン・タイムのパフォーマンスを超えて、時間的評価期間を通じて運用上の安定性をより包括的に評価するために設計されたメトリクスのセットによって補完される。
さまざまなドリフトのデータセットにわたるSOTAフレームワークの脆弱性は、ホワイトボードへの復帰の必要性を示唆している。
関連論文リスト
- Evaluating the Evaluators: Trust in Adversarial Robustness Tests [17.06660302788049]
AttackBenchは、新しい最適度基準に基づいて既存の攻撃実装をランク付けする評価ツールである。
このフレームワークは、一貫したテスト条件を実行し、継続的な更新を可能にする。
論文 参考訳(メタデータ) (2025-07-04T10:07:26Z) - Temporalizing Confidence: Evaluation of Chain-of-Thought Reasoning with Signal Temporal Logic [0.12499537119440243]
本稿では,段階的信頼度を時間的信号としてモデル化し,STL(Signal Temporal Logic)を用いて評価する構造化フレームワークを提案する。
特に,定型的なSTLに基づく制約を定義し,望ましい時間特性と,構造化された解釈可能な信頼度推定として機能するスコアを求める。
本手法はキャリブレーションの指標を常に改善し,従来の信頼度集計やポストホックキャリブレーションよりも信頼性の高い不確実性推定を提供する。
論文 参考訳(メタデータ) (2025-06-09T21:21:12Z) - Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。
特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。
さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-07T02:24:44Z) - Rethinking Semi-supervised Segmentation Beyond Accuracy: Reliability and Robustness [10.220692937750295]
信頼性スコア(Reliable Score, RSS)は、予測精度、キャリブレーション、不確実性の測定を調和平均で組み合わせた新しい尺度である。
我々は、半教師付き学習研究と現実世界の展開ニーズをより良く整合させるために、RSSのようなより包括的なメトリクスへの評価プロトコルのシフトを提唱する。
論文 参考訳(メタデータ) (2025-06-06T09:37:45Z) - Confidential Guardian: Cryptographically Prohibiting the Abuse of Model Abstention [65.47632669243657]
不正直な機関は、不確実性の観点からサービスを差別または不正に否定する機構を利用することができる。
我々は、ミラージュと呼ばれる不確実性誘導攻撃を導入することで、この脅威の実践性を実証する。
本研究では,参照データセット上のキャリブレーションメトリクスを分析し,人工的に抑制された信頼度を検出するフレームワークであるConfidential Guardianを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:47:50Z) - MCQA-Eval: Efficient Confidence Evaluation in NLG with Gold-Standard Correctness Labels [16.300463494913593]
大規模言語モデル (LLM) には堅牢な信頼度推定が必要である。
McQCA-Evalは、自然言語生成における信頼度を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-02-20T05:09:29Z) - ReliOcc: Towards Reliable Semantic Occupancy Prediction via Uncertainty Learning [26.369237406972577]
視覚中心のセマンティック占有予測は、自律運転において重要な役割を果たす。
カメラからのセマンティック占有率を予測するための信頼性を探求する研究は、まだ少ない。
本稿では,カメラによる占有ネットワークの信頼性向上を目的としたReliOccを提案する。
論文 参考訳(メタデータ) (2024-09-26T16:33:16Z) - Trustworthiness for an Ultra-Wideband Localization Service [2.4979362117484714]
本稿では,超広帯域自己ローカライゼーションのための総合的信頼性評価フレームワークを提案する。
我々の目標は、客観的な証拠に基づいてシステムの信頼性を評価するためのガイダンスを提供することである。
我々のアプローチは、結果の信頼性指標が、選択された現実世界の脅威に対応することを保証します。
論文 参考訳(メタデータ) (2024-08-10T11:57:10Z) - Revisiting Confidence Estimation: Towards Reliable Failure Prediction [53.79160907725975]
多くの信頼度推定法は誤分類誤りを検出するのに有害である。
本稿では, 最先端の故障予測性能を示す平坦な最小値を求めることにより, 信頼性ギャップを拡大することを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:44:14Z) - SureFED: Robust Federated Learning via Uncertainty-Aware Inward and
Outward Inspection [29.491675102478798]
本稿では,堅牢なフェデレーション学習のための新しいフレームワークであるSureFEDを紹介する。
SureFEDは、良識のあるクライアントのローカル情報を使って信頼を確立する。
理論的には、データとモデル中毒攻撃に対するアルゴリズムの堅牢性を証明する。
論文 参考訳(メタデータ) (2023-08-04T23:51:05Z) - TrustGuard: GNN-based Robust and Explainable Trust Evaluation with
Dynamicity Support [59.41529066449414]
本稿では,信頼度を考慮した信頼度評価モデルであるTrustGuardを提案する。
TrustGuardは、スナップショット入力層、空間集約層、時間集約層、予測層を含む階層アーキテクチャで設計されている。
実験により、TrustGuardは、シングルタイムスロットとマルチタイムスロットの信頼予測に関して、最先端のGNNベースの信頼評価モデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-06-23T07:39:12Z) - Trust, but Verify: Using Self-Supervised Probing to Improve
Trustworthiness [29.320691367586004]
我々は、訓練されたモデルに対する自信の過剰な問題をチェックおよび緩和することのできる、自己教師型探索の新しいアプローチを導入する。
既存の信頼性関連手法に対して,プラグイン・アンド・プレイ方式で柔軟に適用可能な,シンプルで効果的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-06T08:57:20Z) - RobustBench: a standardized adversarial robustness benchmark [84.50044645539305]
ロバストネスのベンチマークにおける主な課題は、その評価がしばしばエラーを起こし、ロバストネス過大評価につながることである。
我々は,白箱攻撃と黒箱攻撃のアンサンブルであるAutoAttackを用いて,敵対的ロバスト性を評価する。
分散シフト,キャリブレーション,アウト・オブ・ディストリビューション検出,フェアネス,プライバシリーク,スムースネス,転送性に対するロバスト性の影響を解析した。
論文 参考訳(メタデータ) (2020-10-19T17:06:18Z) - Adversarial Robustness on In- and Out-Distribution Improves
Explainability [109.68938066821246]
RATIOは、Adversarial Training on In- and Out-distriionを通じて、堅牢性のためのトレーニング手順である。
RATIOはCIFAR10で最先端の$l$-adrialを実現し、よりクリーンな精度を維持している。
論文 参考訳(メタデータ) (2020-03-20T18:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。