論文の概要: Patch Shortcuts: Interpretable Proxy Models Efficiently Find Black-Box
Vulnerabilities
- arxiv url: http://arxiv.org/abs/2104.11691v1
- Date: Thu, 22 Apr 2021 05:44:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 13:10:06.759343
- Title: Patch Shortcuts: Interpretable Proxy Models Efficiently Find Black-Box
Vulnerabilities
- Title(参考訳): パッチショートカット:ブラックボックスの脆弱性を効果的に発見する解釈可能なプロキシモデル
- Authors: Julia Rosenzweig, Joachim Sicking, Sebastian Houben, Michael Mock,
Maram Akila
- Abstract要約: 関心のブラックボックスモデルのプロキシとして,解釈可能なネットワークを用いて学習したショートカットを検出する手法を提案する。
パッチショートカットを抽出した自律走行データセットA2D2がブラックボックスモデルに大きな影響を及ぼすことを示す。
- 参考スコア(独自算出の注目度): 0.18845455964694519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An important pillar for safe machine learning (ML) is the systematic
mitigation of weaknesses in neural networks to afford their deployment in
critical applications. An ubiquitous class of safety risks are learned
shortcuts, i.e. spurious correlations a network exploits for its decisions that
have no semantic connection to the actual task. Networks relying on such
shortcuts bear the risk of not generalizing well to unseen inputs.
Explainability methods help to uncover such network vulnerabilities. However,
many of these techniques are not directly applicable if access to the network
is constrained, in so-called black-box setups. These setups are prevalent when
using third-party ML components. To address this constraint, we present an
approach to detect learned shortcuts using an interpretable-by-design network
as a proxy to the black-box model of interest. Leveraging the proxy's
guarantees on introspection we automatically extract candidates for learned
shortcuts. Their transferability to the black box is validated in a systematic
fashion. Concretely, as proxy model we choose a BagNet, which bases its
decisions purely on local image patches. We demonstrate on the autonomous
driving dataset A2D2 that extracted patch shortcuts significantly influence the
black box model. By efficiently identifying such patch-based vulnerabilities,
we contribute to safer ML models.
- Abstract(参考訳): 安全な機械学習(ML)のための重要な柱は、ニューラルネットワークの弱点を体系的に緩和し、重要なアプリケーションにデプロイすることである。
安全リスクのユビキタスクラスは、ショートカット、すなわち学習される。
ネットワークは実際のタスクと意味的な関係を持たない決定のために悪用します。
このようなショートカットに依存するネットワークは、見当たらない入力にうまく一般化しないリスクを負う。
説明可能性メソッドはそのようなネットワーク脆弱性を明らかにするのに役立つ。
しかし、これらの技術の多くは、ネットワークへのアクセスが制限されている場合、いわゆるブラックボックス設定では直接適用されない。
これらのセットアップは、サードパーティのMLコンポーネントを使用する場合には一般的である。
この制約に対処するため,関心のブラックボックスモデルのプロキシとして,解釈可能なネットワークを用いて学習したショートカットを検出する手法を提案する。
イントロスペクションのプロキシの保証を活用することで、学習したショートカットの候補を自動的に抽出します。
ブラックボックスへの転送性は体系的に検証される。
具体的には、プロキシモデルとしてbagnetを選択します。
パッチショートカットを抽出した自律走行データセットA2D2がブラックボックスモデルに大きな影響を及ぼすことを示す。
このようなパッチベースの脆弱性を効率的に識別することにより、より安全なMLモデルに寄与する。
関連論文リスト
- In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [97.82118821263825]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。
ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。
我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-25T04:17:24Z) - Edge-Only Universal Adversarial Attacks in Distributed Learning [49.546479320670464]
本研究では,攻撃者がモデルのエッジ部分のみにアクセスした場合に,ユニバーサルな敵攻撃を発生させる可能性について検討する。
提案手法は, エッジ側の重要な特徴を活用することで, 未知のクラウド部分において, 効果的な誤予測を誘導できることを示唆する。
ImageNetの結果は、未知のクラウド部分に対する強力な攻撃伝達性を示している。
論文 参考訳(メタデータ) (2024-11-15T11:06:24Z) - Towards Novel Malicious Packet Recognition: A Few-Shot Learning Approach [0.0]
Deep Packet Inspection (DPI)は、ネットワークセキュリティを強化する重要な技術として登場した。
本研究では,大規模言語モデル(LLM)と少数ショット学習を活用する新しいアプローチを提案する。
提案手法は,マルウェアの種類によって平均精度86.35%,F1スコア86.40%の有望な結果を示す。
論文 参考訳(メタデータ) (2024-09-17T15:02:32Z) - When Side-Channel Attacks Break the Black-Box Property of Embedded
Artificial Intelligence [0.8192907805418583]
ディープニューラルネットワーク(DNN)は、人間の観察者にとって検出不能な状態でネットワークを騙すために設計された悪意のある例である。
本稿では,ロジットを抽出することで,この制約を解決するアーキテクチャ非依存攻撃を提案する。
本手法は, 電磁漏れを利用したサイドチャネル攻撃を行うことにより, ハードウェアとソフトウェアを併用する。
論文 参考訳(メタデータ) (2023-11-23T13:41:22Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Partially Oblivious Neural Network Inference [4.843820624525483]
CNNのようなニューラルネットワークモデルでは、いくつかの情報漏洩が許容可能であることを示す。
我々は,CIFAR-10ネットワークにおいて,モデル重量の最大80%を,事実上のセキュリティ上の影響なく漏洩させることができることを実験的に実証した。
論文 参考訳(メタデータ) (2022-10-27T05:39:36Z) - Safe RAN control: A Symbolic Reinforcement Learning Approach [62.997667081978825]
本稿では,無線アクセスネットワーク(RAN)アプリケーションの安全管理のためのシンボル強化学習(SRL)アーキテクチャを提案する。
我々は、ユーザが所定のセルネットワークトポロジに対して高レベルの論理的安全性仕様を指定できる純粋に自動化された手順を提供する。
ユーザがシステムに意図仕様を設定するのを支援するために開発されたユーザインターフェース(UI)を導入し、提案するエージェントの動作の違いを検査する。
論文 参考訳(メタデータ) (2021-06-03T16:45:40Z) - Multi-context Attention Fusion Neural Network for Software Vulnerability
Identification [4.05739885420409]
ソースコードのセキュリティ脆弱性の共通カテゴリのいくつかを効率的に検出することを学ぶディープラーニングモデルを提案する。
モデルは、学習可能なパラメータの少ないコードセマンティクスの正確な理解を構築します。
提案したAIは、ベンチマークされたNIST SARDデータセットから特定のCWEに対して98.40%のF1スコアを達成する。
論文 参考訳(メタデータ) (2021-04-19T11:50:36Z) - Symbolic Reinforcement Learning for Safe RAN Control [62.997667081978825]
無線アクセスネットワーク(RAN)アプリケーションにおける安全な制御のためのシンボリック強化学習(SRL)アーキテクチャを紹介します。
本ツールでは,LTL(Linear Temporal Logic)で表現された高レベルの安全仕様を選択して,所定のセルネットワーク上で動作しているRLエージェントをシールドする。
ユーザインタフェース(ui)を用いて,ユーザがインテントの仕様をアーキテクチャに設定し,許可されたアクションとブロックされたアクションの違いを検査する。
論文 参考訳(メタデータ) (2021-03-11T10:56:49Z) - Improving Query Efficiency of Black-box Adversarial Attack [75.71530208862319]
ニューラルプロセスに基づくブラックボックス対逆攻撃(NP-Attack)を提案する。
NP-Attackはブラックボックス設定でクエリ数を大幅に削減できる。
論文 参考訳(メタデータ) (2020-09-24T06:22:56Z) - DeepMAL -- Deep Learning Models for Malware Traffic Detection and
Classification [4.187494796512101]
本稿では、悪意のあるトラフィックの基盤となる統計をキャプチャできるDLモデルであるDeepMALを紹介する。
DeepMALは、従来の浅層モデルよりも高い精度でマルウェアフローを検出・分類できることを示す。
論文 参考訳(メタデータ) (2020-03-03T16:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。