論文の概要: Model X-Ray: Detection of Hidden Malware in AI Model Weights using Few Shot Learning
- arxiv url: http://arxiv.org/abs/2409.19310v1
- Date: Sat, 28 Sep 2024 10:45:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 23:58:48.311789
- Title: Model X-Ray: Detection of Hidden Malware in AI Model Weights using Few Shot Learning
- Title(参考訳): モデルX線:わずかなショット学習によるAIモデル重みの隠れマルウェアの検出
- Authors: Daniel Gilkarov, Ran Dubin,
- Abstract要約: 攻撃者はステガノグラフィー技術によってAIモデルにマルウェアを埋め込むことができる。
本研究は、AIモデルを画像場に転送することで、よく研究された数ショットの学習技術を活用する。
トレーニングしたモデルでは,新しい拡散スペクトルステガノグラフィー攻撃が検出できた。
- 参考スコア(独自算出の注目度): 4.0208298639821525
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The potential for exploitation of AI models has increased due to the rapid advancement of Artificial Intelligence (AI) and the widespread use of platforms like Model Zoo for sharing AI models. Attackers can embed malware within AI models through steganographic techniques, taking advantage of the substantial size of these models to conceal malicious data and use it for nefarious purposes, e.g. Remote Code Execution. Ensuring the security of AI models is a burgeoning area of research essential for safeguarding the multitude of organizations and users relying on AI technologies. This study leverages well-studied image few-shot learning techniques by transferring the AI models to the image field using a novel image representation. Applying few-shot learning in this field enables us to create practical models, a feat that previous works lack. Our method addresses critical limitations in state-of-the-art detection techniques that hinder their practicality. This approach reduces the required training dataset size from 40000 models to just 6. Furthermore, our methods consistently detect delicate attacks of up to 25% embedding rate and even up to 6% in some cases, while previous works were only shown to be effective for a 100%-50% embedding rate. We employ a strict evaluation strategy to ensure the trained models are generic concerning various factors. In addition, we show that our trained models successfully detect novel spread-spectrum steganography attacks, demonstrating the models' impressive robustness just by learning one type of attack. We open-source our code to support reproducibility and enhance the research in this new field.
- Abstract(参考訳): AIモデルの活用の可能性が高まったのは、人工知能(AI)の急速な進歩と、AIモデルを共有するためにModel Zooのようなプラットフォームが広く使用されているためだ。
攻撃者は、ステガノグラフィー技術によってAIモデルにマルウェアを埋め込むことができ、これらのモデルのかなりのサイズを利用して悪意のあるデータを隠蔽し、悪質な目的、例えばRemote Code Execution(リモートコード実行)に利用する。
AIモデルのセキュリティを確保することは、AI技術に依存している多数の組織やユーザを保護するために不可欠な、急成長する研究分野である。
本研究は,新しい画像表現を用いて,AIモデルを画像場に転送することで,よく研究された数ショットの学習手法を活用する。
この領域で数ショットの学習を適用することで、実践的なモデルの作成が可能になります。
本手法は,その実用性を阻害する最先端検出技術における限界に対処する。
このアプローチにより、必要なトレーニングデータセットのサイズが40000モデルから6.5%に削減される。
さらに, 組込み速度が最大25%, 最大6%の微妙な攻撃を連続的に検出し, 従来の手法は100%-50%の埋込み速度で有効であった。
我々は、訓練されたモデルが様々な要因に関して一般的なものであることを保証するため、厳密な評価戦略を採用している。
さらに,我々の訓練したモデルが,新しい拡散スペクトルステガノグラフィー攻撃を検知し,一つのタイプの攻撃を学習することで,モデルが顕著に堅牢であることを示す。
我々は、再現性をサポートし、この新しい分野の研究を強化するために、コードをオープンソースにしています。
関連論文リスト
- Adversarial Machine Learning: Attacking and Safeguarding Image Datasets [0.0]
本稿では、敵攻撃に対する畳み込みニューラルネットワーク(CNN)の脆弱性について検討し、その保護方法を検討する。
CNNは、最も一般的な画像データセットの4つに実装され、高いベースライン精度を実現した。
対戦訓練後のモデルに対するロバスト性はほとんどのレベルが達成されているが、敵の摂動に対するモデルの性能にはまだ若干の損失があるようだ。
論文 参考訳(メタデータ) (2025-01-31T22:32:38Z) - Data-Free Model-Related Attacks: Unleashing the Potential of Generative AI [21.815149263785912]
本稿では、モデル抽出、メンバーシップ推論、モデル反転を含むモデル関連攻撃を容易にするために生成AIを導入する。
本研究は,データフリーかつブラックボックス方式で,画像モデルとテキストモデルの両方に対して,さまざまなモデル関連攻撃を行うことができることを示す。
この研究は、ディープラーニングモデルに対する生成AIによる攻撃に関連する潜在的なリスクについて、コミュニティに重要な早期警告を提供する。
論文 参考訳(メタデータ) (2025-01-28T03:12:57Z) - Boosting Alignment for Post-Unlearning Text-to-Image Generative Models [55.82190434534429]
大規模な生成モデルは、大量のデータによって推進される印象的な画像生成能力を示している。
これはしばしば必然的に有害なコンテンツや不適切なコンテンツを生み出し、著作権の懸念を引き起こす。
学習しない反復ごとに最適なモデル更新を求めるフレームワークを提案し、両方の目的に対して単調な改善を確実にする。
論文 参考訳(メタデータ) (2024-12-09T21:36:10Z) - Backdoor in Seconds: Unlocking Vulnerabilities in Large Pre-trained Models via Model Editing [21.52641337754884]
ある種の敵攻撃は、トレーニングデータセットを汚染することで、機械学習モデルの振る舞いを操作できる。
EDTモデル, textbfEfficient, textbfData-free, textbfTraining-free バックドアアタック手法を導入する。
モデル編集技術にインスパイアされたEDTは、編集ベースの軽量コードブックを、大規模な事前訓練されたモデルのバックドアに注入する。
論文 参考訳(メタデータ) (2024-10-23T20:32:14Z) - SecurityNet: Assessing Machine Learning Vulnerabilities on Public Models [74.58014281829946]
本研究では, モデル盗難攻撃, メンバーシップ推論攻撃, パブリックモデルにおけるバックドア検出など, いくつかの代表的な攻撃・防御の有効性を解析する。
実験により,これらの攻撃・防御性能は,自己学習モデルと比較して,公共モデルによって大きく異なることが示された。
論文 参考訳(メタデータ) (2023-10-19T11:49:22Z) - Data Forensics in Diffusion Models: A Systematic Analysis of Membership
Privacy [62.16582309504159]
本研究では,拡散モデルに対するメンバシップ推論攻撃の系統的解析を開発し,各攻撃シナリオに適した新しい攻撃手法を提案する。
提案手法は容易に入手可能な量を利用して,現実的なシナリオにおいてほぼ完全な攻撃性能 (>0.9 AUCROC) を達成することができる。
論文 参考訳(メタデータ) (2023-02-15T17:37:49Z) - Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文 参考訳(メタデータ) (2022-11-27T21:43:45Z) - Thief, Beware of What Get You There: Towards Understanding Model
Extraction Attack [13.28881502612207]
いくつかのシナリオでは、AIモデルはプロプライエタリに訓練され、事前に訓練されたモデルも十分な分散データも公開されていない。
既存の手法の有効性は,事前学習モデルの欠如に大きく影響している。
モデル抽出攻撃を、これらの要因を深層強化学習で捉える適応的フレームワークに定式化します。
論文 参考訳(メタデータ) (2021-04-13T03:46:59Z) - Deepfake Forensics via An Adversarial Game [99.84099103679816]
顔偽造と画像・映像品質の両面での一般化能力向上のための対人訓練を提唱する。
AIベースの顔操作は、しばしば、一般化が困難であるモデルによって容易に発見できる高周波アーティファクトにつながることを考慮し、これらの特定のアーティファクトを曖昧にしようとする新しい逆トレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-03-25T02:20:08Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。