論文の概要: AI Model Extraction Attacks: Bypassing Single-Client Assumptions in Defenses
- arxiv url: http://arxiv.org/abs/2606.03381v1
- Date: Tue, 02 Jun 2026 09:25:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.902009
- Title: AI Model Extraction Attacks: Bypassing Single-Client Assumptions in Defenses
- Title(参考訳): AIモデル抽出攻撃:防衛における単一クライアントの仮定をバイパスする
- Authors: Maxime Schwarzer, Johannes F. Loevenich, Gustavo Sánchez, Laurin Holz, Thies Möhlenhof, Tobias Hürten, Roberto Rigolin F. Lopes, Veit Hagenmeyer,
- Abstract要約: モデル抽出攻撃(MEA)は、敵がプロプライエタリなモデルを複製し、保護された情報を侵害し、オフラインの敵攻撃に備えることを可能にする。
現在の防衛戦略は、攻撃が孤立したアイデンティティに由来するという暗黙の仮定である、Single Client Assumption (SCA) に大きく依存している。
我々は、再現可能なモデルステアリング研究のためにCerberusAIと呼ばれるモジュラーでオープンソースなフレームワークを導入し、それを分散攻撃シナリオをシミュレートするために使用します。
- 参考スコア(独自算出の注目度): 1.247917923987062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring the protection of Artificial Intelligence (AI) models deployed in military Command and Control (C2) systems and critical infrastructure is essential for maintaining information superiority. Model Extraction Attacks (MEAs) pose a significant threat, as they enable adversaries to replicate proprietary models, compromise protected information, and prepare offline adversarial attacks. However, current defense strategies predominantly rely on the Single Client Assumption (SCA), which is the implicit assumption that attacks originate from isolated identities. This work systematically demonstrates that the SCA is fundamentally invalid in the presence of coordinated threat actors, such as Advanced Persistent Threats (APTs). We introduce a modular, open-source framework called CerberusAI for reproducible model-stealing research, and use it to simulate distributed attack scenarios. Our empirical evaluation shows that well-established defense mechanisms, such as Protecting Against Deep Neural Network Model Stealing Attacks (PRADA), can be bypassed by basic round-robin query distribution strategies, resulting in a significant reduction in detection performance. Furthermore, we demonstrate that even global aggregation approaches can be rendered operationally useless through adaptive traffic mixing. These results highlight the need for a paradigm shift towards stateful, identity-independent defense architectures in the field of model extraction attacks. This paper was originally presented at the International Conference on Military Communication and Information Systems (ICMCIS), organized by the Information Systems Technology (IST) Scientific and Technical Committee, IST-224-RSY - the ICMCIS, held in Bath, United Kingdom, 12-13 May 2026 and won the best paper award.
- Abstract(参考訳): 軍事指揮統制(C2)システムに配備された人工知能(AI)モデルの保護と重要なインフラの確保は、情報の優越性を維持するために不可欠である。
モデル抽出攻撃(MEA)は、敵がプロプライエタリなモデルを複製し、保護された情報を侵害し、オフラインの敵攻撃に備えることを可能にし、重大な脅威となる。
しかし、現在の防衛戦略は、攻撃が孤立したアイデンティティに由来するという暗黙の仮定である、Single Client Assumption (SCA) に大きく依存している。
この研究は、Advanced Persistent Threats (APTs)のような協調的な脅威アクターが存在する場合、SCAが根本的に無効であることを示す。
我々は、再現可能なモデルステアリング研究のためにCerberusAIと呼ばれるモジュラーでオープンソースなフレームワークを導入し、それを分散攻撃シナリオをシミュレートするために使用します。
実験により, 深層ニューラルネットワークモデルステアリングアタック (PRADA) に対する防御機構は, 基本的なラウンドロビンクエリ分散戦略によってバイパスされ, 検出性能が著しく低下することが示された。
さらに,グローバルアグリゲーションアプローチであっても,適応的なトラフィック混合によって運用上は役に立たないことを示す。
これらの結果は、モデル抽出攻撃の分野において、ステートフルでアイデンティティに依存しない防衛アーキテクチャへのパラダイムシフトの必要性を強調している。
本論文は,2026年5月12日から13日にかけて英国バースで開催された国際軍事通信情報システム会議(ICMCIS, International Conference on Military Communication and Information Systems, ICMCIS)において,情報システム技術(IST)科学技術委員会(IST-224-RSY)が主催し,最高の論文賞を受賞した。
関連論文リスト
- Protecting On-Device AI Inference: A Systematic Review of Attacks and Defence Mechanisms [36.94429692322632]
本稿では,デバイス上でのAI推論をターゲットとした脅威とそれに対応する防御機構の総合的なレビューを行う。
調査対象の攻撃論文の4分の1は知的財産権(IP)攻撃に焦点が当てられている。
いくつかの攻撃カテゴリは、攻撃文献のおよそ3分の1を占める敵攻撃など、それらに関連する防衛紙を持っていない。
論文 参考訳(メタデータ) (2026-05-28T06:44:46Z) - Provably Secure Agent Guardrail [89.79561918065122]
既存の防衛アーキテクチャは経験的セマンティックガードレールと確率論的大モデル調整器に依存している。
本稿では,論理的推論の基本的制約に基づくエージェントのための新しいセキュリティパラダイムを提案する。
論文 参考訳(メタデータ) (2026-05-28T02:12:41Z) - ACIArena: Toward Unified Evaluation for Agent Cascading Injection [47.48169234218755]
ACIArenaはマルチエージェントシステムの堅牢性を評価するためのフレームワークである。
複数の攻撃面にまたがる評価スイートと攻撃目標を提供する。
6つの広く使用されているMAS実装をカバーし、1,356のテストケースのベンチマークを提供する。
論文 参考訳(メタデータ) (2026-04-09T04:03:13Z) - AdapTools: Adaptive Tool-based Indirect Prompt Injection Attacks on Agentic LLMs [24.71883582216731]
AdapToolsは、ステルス攻撃ツールを選択し、適応攻撃プロンプトを生成する、新しい適応IPI攻撃フレームワークである。
AdapToolsは攻撃成功率を2.13倍改善し、システムの実用性は1.78に低下する。
論文 参考訳(メタデータ) (2026-02-24T09:32:19Z) - Cognitive Control Architecture (CCA): A Lifecycle Supervision Framework for Robustly Aligned AI Agents [1.014002853673217]
LLMエージェントはIPI(Indirect Prompt Injection)攻撃に対して脆弱である。
IPIは外部情報ソースを汚染することでハイジャックエージェントの動作を攻撃している。
本稿では,全ライフサイクルの認知管理を実現するための総合的な枠組みである認知制御アーキテクチャ(CCA)を提案する。
論文 参考訳(メタデータ) (2025-12-07T08:11:19Z) - A Systematic Survey of Model Extraction Attacks and Defenses: State-of-the-Art and Perspectives [65.3369988566853]
近年の研究では、敵が対象モデルの機能を複製できることが示されている。
モデル抽出攻撃は知的財産権、プライバシー、システムのセキュリティに脅威をもたらす。
本稿では,攻撃機構,防衛手法,計算環境に応じてMEAを分類する新しい分類法を提案する。
論文 参考訳(メタデータ) (2025-08-20T19:49:59Z) - A Survey on Model Extraction Attacks and Defenses for Large Language Models [55.60375624503877]
モデル抽出攻撃は、デプロイされた言語モデルに重大なセキュリティ脅威をもたらす。
この調査は、抽出攻撃と防御攻撃の包括的分類、機能抽出への攻撃の分類、データ抽出の訓練、およびプロンプトターゲット攻撃を提供する。
モデル保護,データプライバシ保護,迅速なターゲット戦略に編成された防御機構について検討し,その効果を異なる展開シナリオで評価する。
論文 参考訳(メタデータ) (2025-06-26T22:02:01Z) - MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:37:09Z) - A Survey of Model Extraction Attacks and Defenses in Distributed Computing Environments [55.60375624503877]
モデル抽出攻撃(MEA)は、敵がモデルを盗み、知的財産と訓練データを公開することによって、現代の機械学習システムを脅かす。
この調査は、クラウド、エッジ、フェデレーションのユニークな特性がどのように攻撃ベクトルや防御要件を形作るのかを、緊急に理解する必要に起因している。
本研究は, 自動運転車, 医療, 金融サービスといった重要な分野において, 環境要因がセキュリティ戦略にどう影響するかを実証し, 攻撃手法と防衛機構の進化を系統的に検討する。
論文 参考訳(メタデータ) (2025-02-22T03:46:50Z) - The Adaptive Arms Race: Redefining Robustness in AI Security [21.759075171536388]
我々は,ブラックボックス攻撃と防御を適応的に最適化するフレームワークを,彼らが形成する競争ゲームの下で導入する。
システム応答を動的に制御するアクティブディフェンスは、決定に基づく攻撃に対するモデル強化に不可欠である。
我々の発見は、広範囲な理論的および実証的な調査によって裏付けられ、適応的敵がブラックボックスAIベースのシステムに深刻な脅威をもたらすことを確認した。
論文 参考訳(メタデータ) (2023-12-20T21:24:52Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。