論文の概要: KoALA: KL-L0 Adversarial Detector via Label Agreement
- arxiv url: http://arxiv.org/abs/2510.12752v1
- Date: Tue, 14 Oct 2025 17:33:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 21:19:15.005354
- Title: KoALA: KL-L0 Adversarial Detector via Label Agreement
- Title(参考訳): KoALA:レーベル契約によるKL-L0対応検出器
- Authors: Siqi Li, Yasser Shoukry,
- Abstract要約: KoALAは、ディープニューラルネットワークのためのセマンティックスフリーの敵検出器である。
2つの相補的類似度指標からクラス予測が一致しない場合に、敵対攻撃を検出する。
KoALA は ResNet/CIFAR-10 の精度 0.94 とリコール 0.81 、CLIP/Tiny-ImageNet の精度 0.66 とリコール 0.85 を達成している。
- 参考スコア(独自算出の注目度): 9.360893727306324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks are highly susceptible to adversarial attacks, which pose significant risks to security- and safety-critical applications. We present KoALA (KL-L0 Adversarial detection via Label Agreement), a novel, semantics-free adversarial detector that requires no architectural changes or adversarial retraining. KoALA operates on a simple principle: it detects an adversarial attack when class predictions from two complementary similarity metrics disagree. These metrics-KL divergence and an L0-based similarity-are specifically chosen to detect different types of perturbations. The KL divergence metric is sensitive to dense, low-amplitude shifts, while the L0-based similarity is designed for sparse, high-impact changes. We provide a formal proof of correctness for our approach. The only training required is a simple fine-tuning step on a pre-trained image encoder using clean images to ensure the embeddings align well with both metrics. This makes KOALA a lightweight, plug-and-play solution for existing models and various data modalities. Our extensive experiments on ResNet/CIFAR-10 and CLIP/Tiny-ImageNet confirm our theoretical claims. When the theorem's conditions are met, KoALA consistently and effectively detects adversarial examples. On the full test sets, KoALA achieves a precision of 0.94 and a recall of 0.81 on ResNet/CIFAR-10, and a precision of 0.66 and a recall of 0.85 on CLIP/Tiny-ImageNet.
- Abstract(参考訳): ディープニューラルネットワークは敵の攻撃に非常に敏感であり、セキュリティおよび安全クリティカルなアプリケーションに重大なリスクをもたらす。
本報告では, アーキテクチャ変更や再学習を必要としない新規なセマンティクスフリーな逆検出器であるKoALA (KL-L0 Adversarial Detection via Label Agreement) について述べる。
KoALAは2つの相補的類似度指標からクラス予測が一致しない場合に、逆攻撃を検出するという単純な原理で機能する。
これらの指標-KLの発散とL0に基づく類似性は、異なる種類の摂動を検出するために特別に選択される。
KLの発散距離は、密度の高い低振幅シフトに敏感であり、L0ベースの類似性は、スパースで高インパクトな変化のために設計されている。
我々は我々のアプローチの正しさの正式な証明を提供する。
必要なトレーニングは、クリーンなイメージを使用して、トレーニング済みのイメージエンコーダの簡単な微調整ステップのみである。
これにより、KOALAは既存のモデルと様々なデータモダリティのための軽量でプラグアンドプレイのソリューションとなる。
ResNet/CIFAR-10とCLIP/Tiny-ImageNetに関する広範な実験は、我々の理論的な主張を裏付けるものである。
定理の条件が満たされると、KoALAは一貫して、効果的に敵の例を検知する。
完全なテストセットでは、KoALAはResNet/CIFAR-10で精度0.94、リコール0.81、CLIP/Tiny-ImageNetで精度0.66、リコール0.85を達成している。
関連論文リスト
- A Few Large Shifts: Layer-Inconsistency Based Minimal Overhead Adversarial Example Detection [13.109309606764754]
我々は、ターゲットモデル自体の内部の階層的不整合を利用するプラグイン検出フレームワークを導入する。
本手法は計算オーバーヘッドを無視して最先端検出性能を実現する。
論文 参考訳(メタデータ) (2025-05-19T00:48:53Z) - Generalized Kullback-Leibler Divergence Loss [105.66549870868971]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。
DKL損失の非結合構造により,我々は改善すべき2つの領域を特定した。
論文 参考訳(メタデータ) (2025-03-11T04:43:33Z) - CLIPure: Purification in Latent Space via CLIP for Adversarially Robust Zero-Shot Classification [65.46685389276443]
画像とテキストプロンプトをマッチングすることでゼロショット分類を行うことができる、視覚言語で事前訓練されたエンコーダモデルであるCLIPについて検討する。
次に, 共分散精製プロセス間のKL分散として精製リスクを定式化する。
画像の潜伏ベクトルの確率をモデル化するCLI-Diffと、画像の埋め込みとaの写真とのコサイン類似度をモデル化するCLI-Cosの2つのバリエーションを提案する。
論文 参考訳(メタデータ) (2025-02-25T13:09:34Z) - Decoupled Kullback-Leibler Divergence Loss [90.54331083430597]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。
我々はKL/DKLにクラスワイドなグローバル情報を導入し、個々のサンプルからバイアスを取ります。
提案手法は,新たな最先端の対人ロバスト性を公衆のリーダーボード上で実現する。
論文 参考訳(メタデータ) (2023-05-23T11:17:45Z) - Adversarial Training with Rectified Rejection [114.83821848791206]
本稿では,信頼度(T-Con)を確実性オラクルとして利用し,信頼度を補正してT-Conを予測することを提案する。
軽度の条件下では、正当性(R-Con)拒絶器と信頼性(R-Con)拒絶器を結合して、不正に分類された入力と正しく分類された入力を区別できることを示す。
論文 参考訳(メタデータ) (2021-05-31T08:24:53Z) - Adversarial Detection and Correction by Matching Prediction
Distributions [0.0]
この検出器は、MNISTとFashion-MNISTに対するCarini-WagnerやSLIDEのような強力な攻撃をほぼ完全に中和する。
本手法は,攻撃者がモデルと防御の両方について十分な知識を持つホワイトボックス攻撃の場合においても,なおも敵の例を検出することができることを示す。
論文 参考訳(メタデータ) (2020-02-21T15:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。