論文の概要: Model X-Ray: Detection of Hidden Malware in AI Model Weights using Few Shot Learning
- arxiv url: http://arxiv.org/abs/2409.19310v1
- Date: Sat, 28 Sep 2024 10:45:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 23:58:48.311789
- Title: Model X-Ray: Detection of Hidden Malware in AI Model Weights using Few Shot Learning
- Title(参考訳): モデルX線:わずかなショット学習によるAIモデル重みの隠れマルウェアの検出
- Authors: Daniel Gilkarov, Ran Dubin,
- Abstract要約: 攻撃者はステガノグラフィー技術によってAIモデルにマルウェアを埋め込むことができる。
本研究は、AIモデルを画像場に転送することで、よく研究された数ショットの学習技術を活用する。
トレーニングしたモデルでは,新しい拡散スペクトルステガノグラフィー攻撃が検出できた。
- 参考スコア(独自算出の注目度): 4.0208298639821525
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The potential for exploitation of AI models has increased due to the rapid advancement of Artificial Intelligence (AI) and the widespread use of platforms like Model Zoo for sharing AI models. Attackers can embed malware within AI models through steganographic techniques, taking advantage of the substantial size of these models to conceal malicious data and use it for nefarious purposes, e.g. Remote Code Execution. Ensuring the security of AI models is a burgeoning area of research essential for safeguarding the multitude of organizations and users relying on AI technologies. This study leverages well-studied image few-shot learning techniques by transferring the AI models to the image field using a novel image representation. Applying few-shot learning in this field enables us to create practical models, a feat that previous works lack. Our method addresses critical limitations in state-of-the-art detection techniques that hinder their practicality. This approach reduces the required training dataset size from 40000 models to just 6. Furthermore, our methods consistently detect delicate attacks of up to 25% embedding rate and even up to 6% in some cases, while previous works were only shown to be effective for a 100%-50% embedding rate. We employ a strict evaluation strategy to ensure the trained models are generic concerning various factors. In addition, we show that our trained models successfully detect novel spread-spectrum steganography attacks, demonstrating the models' impressive robustness just by learning one type of attack. We open-source our code to support reproducibility and enhance the research in this new field.
- Abstract(参考訳): AIモデルの活用の可能性が高まったのは、人工知能(AI)の急速な進歩と、AIモデルを共有するためにModel Zooのようなプラットフォームが広く使用されているためだ。
攻撃者は、ステガノグラフィー技術によってAIモデルにマルウェアを埋め込むことができ、これらのモデルのかなりのサイズを利用して悪意のあるデータを隠蔽し、悪質な目的、例えばRemote Code Execution(リモートコード実行)に利用する。
AIモデルのセキュリティを確保することは、AI技術に依存している多数の組織やユーザを保護するために不可欠な、急成長する研究分野である。
本研究は,新しい画像表現を用いて,AIモデルを画像場に転送することで,よく研究された数ショットの学習手法を活用する。
この領域で数ショットの学習を適用することで、実践的なモデルの作成が可能になります。
本手法は,その実用性を阻害する最先端検出技術における限界に対処する。
このアプローチにより、必要なトレーニングデータセットのサイズが40000モデルから6.5%に削減される。
さらに, 組込み速度が最大25%, 最大6%の微妙な攻撃を連続的に検出し, 従来の手法は100%-50%の埋込み速度で有効であった。
我々は、訓練されたモデルが様々な要因に関して一般的なものであることを保証するため、厳密な評価戦略を採用している。
さらに,我々の訓練したモデルが,新しい拡散スペクトルステガノグラフィー攻撃を検知し,一つのタイプの攻撃を学習することで,モデルが顕著に堅牢であることを示す。
我々は、再現性をサポートし、この新しい分野の研究を強化するために、コードをオープンソースにしています。
関連論文リスト
- Backdoor in Seconds: Unlocking Vulnerabilities in Large Pre-trained Models via Model Editing [21.52641337754884]
ある種の敵攻撃は、トレーニングデータセットを汚染することで、機械学習モデルの振る舞いを操作できる。
EDTモデル, textbfEfficient, textbfData-free, textbfTraining-free バックドアアタック手法を導入する。
モデル編集技術にインスパイアされたEDTは、編集ベースの軽量コードブックを、大規模な事前訓練されたモデルのバックドアに注入する。
論文 参考訳(メタデータ) (2024-10-23T20:32:14Z) - Unlearn and Burn: Adversarial Machine Unlearning Requests Destroy Model Accuracy [65.80757820884476]
未学習システムのデプロイにおいて、重要で未調査の脆弱性を公開しています。
本稿では,訓練セットに存在しないデータに対して,逆学習要求を送信することにより,攻撃者がモデル精度を劣化させることができる脅威モデルを提案する。
我々は、未学習要求の正当性を検出するための様々な検証メカニズムを評価し、検証の課題を明らかにする。
論文 参考訳(メタデータ) (2024-10-12T16:47:04Z) - Learning-based Models for Vulnerability Detection: An Extensive Study [3.1317409221921144]
我々は、最先端の学習ベースアプローチの2つのタイプを広範かつ包括的に調査する。
本稿では,シーケンスベースモデルの優先度と,グラフベースモデルの限定能力について実験的に検証する。
論文 参考訳(メタデータ) (2024-08-14T13:01:30Z) - An Analysis of Recent Advances in Deepfake Image Detection in an Evolving Threat Landscape [11.45988746286973]
ディープフェイクまたは合成画像は、オンラインプラットフォームに深刻なリスクをもたらす。
われわれは8つの最先端の検出器を研究し、配備の準備が整っていないと論じている。
論文 参考訳(メタデータ) (2024-04-24T21:21:50Z) - SecurityNet: Assessing Machine Learning Vulnerabilities on Public Models [74.58014281829946]
本研究では, モデル盗難攻撃, メンバーシップ推論攻撃, パブリックモデルにおけるバックドア検出など, いくつかの代表的な攻撃・防御の有効性を解析する。
実験により,これらの攻撃・防御性能は,自己学習モデルと比較して,公共モデルによって大きく異なることが示された。
論文 参考訳(メタデータ) (2023-10-19T11:49:22Z) - Data Forensics in Diffusion Models: A Systematic Analysis of Membership
Privacy [62.16582309504159]
本研究では,拡散モデルに対するメンバシップ推論攻撃の系統的解析を開発し,各攻撃シナリオに適した新しい攻撃手法を提案する。
提案手法は容易に入手可能な量を利用して,現実的なシナリオにおいてほぼ完全な攻撃性能 (>0.9 AUCROC) を達成することができる。
論文 参考訳(メタデータ) (2023-02-15T17:37:49Z) - Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文 参考訳(メタデータ) (2022-11-27T21:43:45Z) - Thief, Beware of What Get You There: Towards Understanding Model
Extraction Attack [13.28881502612207]
いくつかのシナリオでは、AIモデルはプロプライエタリに訓練され、事前に訓練されたモデルも十分な分散データも公開されていない。
既存の手法の有効性は,事前学習モデルの欠如に大きく影響している。
モデル抽出攻撃を、これらの要因を深層強化学習で捉える適応的フレームワークに定式化します。
論文 参考訳(メタデータ) (2021-04-13T03:46:59Z) - Deepfake Forensics via An Adversarial Game [99.84099103679816]
顔偽造と画像・映像品質の両面での一般化能力向上のための対人訓練を提唱する。
AIベースの顔操作は、しばしば、一般化が困難であるモデルによって容易に発見できる高周波アーティファクトにつながることを考慮し、これらの特定のアーティファクトを曖昧にしようとする新しい逆トレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-03-25T02:20:08Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。