論文の概要: AI Security in the Foundation Model Era: A Comprehensive Survey from a Unified Perspective
- arxiv url: http://arxiv.org/abs/2603.24857v1
- Date: Wed, 25 Mar 2026 22:53:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.012457
- Title: AI Security in the Foundation Model Era: A Comprehensive Survey from a Unified Perspective
- Title(参考訳): ファウンデーションモデル時代のAIセキュリティ:統一された視点からの総合的な調査
- Authors: Zhenyi Wang, Siyu Luan,
- Abstract要約: 4つの軸に沿ってモデル-データ相互作用をフレーム化するクローズドループ脅威分類法を提案する。
その結果、セキュリティ脅威の4つのクラスは、異なるが関連する攻撃のカテゴリを表す。
弊社のフレームワークは、スケーラブルで、転送可能で、また、クロスモーダルなセキュリティ戦略を開発するための基盤を確立している。
- 参考スコア(独自算出の注目度): 12.53973720107764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As machine learning (ML) systems expand in both scale and functionality, the security landscape has become increasingly complex, with a proliferation of attacks and defenses. However, existing studies largely treat these threats in isolation, lacking a coherent framework to expose their shared principles and interdependencies. This fragmented view hinders systematic understanding and limits the design of comprehensive defenses. Crucially, the two foundational assets of ML -- \textbf{data} and \textbf{models} -- are no longer independent; vulnerabilities in one directly compromise the other. The absence of a holistic framework leaves open questions about how these bidirectional risks propagate across the ML pipeline. To address this critical gap, we propose a \emph{unified closed-loop threat taxonomy} that explicitly frames model-data interactions along four directional axes. Our framework offers a principled lens for analyzing and defending foundation models. The resulting four classes of security threats represent distinct but interrelated categories of attacks: (1) Data$\rightarrow$Data (D$\rightarrow$D): including \emph{data decryption attacks and watermark removal attacks}; (2) Data$\rightarrow$Model (D$\rightarrow$M): including \emph{poisoning, harmful fine-tuning attacks, and jailbreak attacks}; (3) Model$\rightarrow$Data (M$\rightarrow$D): including \emph{model inversion, membership inference attacks, and training data extraction attacks}; (4) Model$\rightarrow$Model (M$\rightarrow$M): including \emph{model extraction attacks}. Our unified framework elucidates the underlying connections among these security threats and establishes a foundation for developing scalable, transferable, and cross-modal security strategies, particularly within the landscape of foundation models.
- Abstract(参考訳): 機械学習(ML)システムがスケールと機能の両方で拡大するにつれ、セキュリティの状況はますます複雑化し、攻撃や防御が急増している。
しかし、既存の研究では、これらの脅威を個別に扱っており、それらの共通原則と相互依存を明らかにするための一貫性のある枠組みが欠如している。
この断片化されたビューは、体系的な理解を妨げ、包括的防御の設計を制限する。
重要なことに、MLの2つの基本資産 -- \textbf{data} と \textbf{models} -- はもはや独立ではない。
全体論的なフレームワークが存在しないため、これらの双方向リスクがMLパイプライン全体にわたってどのように伝播するかという疑問が浮かび上がっている。
この致命的なギャップに対処するために,4つの方向軸に沿ってモデル-データ相互作用を明示的にフレーム化する 'emph{unified closed-loop threat taxonomy} を提案する。
我々のフレームワークは基礎モデルの解析と保護のための原理化されたレンズを提供する。
1) Data$\rightarrow$Data (D$\rightarrow$D) including \emph{data decryption attack and watermark removal attack}; (2) Data$\rightarrow$Model (D$\rightarrow$M) including \emph{poisoning, valuable fine-tuning attack, and jailbreak attack}; (3) Model$\rightarrow$Data (M$\rightarrow$D) including \emph{model inversion, member inference attack, and training data extract attack}; (4) Model$\rightarrow$Model (M$\rightarrow$M) including \emph{model extract attack}; (3) Model$\rightarrow$Model (M$\rightarrow$M) including
我々の統合されたフレームワークは、これらのセキュリティ脅威の根底にあるつながりを解明し、特に基盤モデルの展望の中で、スケーラブルで、転送可能で、そして、横断的なセキュリティ戦略を開発するための基盤を確立します。
関連論文リスト
- Multi-Agent Framework for Threat Mitigation and Resilience in AI-Based Systems [6.850914615021645]
従来のサイバーセキュリティは、基礎、マルチモーダル、RAGシステムのML固有の脅威モデリングを欠いている。
我々は、MITRE ATLAS、AI Incident Database、文献から93の脅威を抽出し、854のGitHub/Pythonリポジトリを分析した。
商用LLM APIモデル盗難、パラメータ記憶リーク、優先誘導型テキスト専用ジェイルブレイクなどの未報告の脅威を識別する。
論文 参考訳(メタデータ) (2025-12-29T01:27:19Z) - Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning [58.16354555208417]
PADとFFDはそれぞれ物理メディアベースのプレゼンテーションアタックとデジタル編集ベースのDeepFakeから顔データを保護するために提案されている。
これら2つのカテゴリの攻撃を同時に処理する統一顔攻撃検出モデルがないことは、主に2つの要因に起因する。
本稿では,異なる意味空間から複数の分類基準を適応的に探索する,視覚言語モデルに基づく階層型プロンプトチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:35:45Z) - Merger-as-a-Stealer: Stealing Targeted PII from Aligned LLMs with Model Merging [49.270050440553575]
この攻撃を実現するための2段階フレームワークである textttMerger-as-a-Stealer を提案する。
まず、攻撃者は悪意のあるモデルを微調整し、PII関連のクエリに応答するよう強制する。
次に、攻撃者は直接PII関連クエリをマージしたモデルに入力し、ターゲットPIIを抽出する。
論文 参考訳(メタデータ) (2025-02-22T05:34:53Z) - Dual Defense: Enhancing Privacy and Mitigating Poisoning Attacks in Federated Learning [10.102889257118145]
フェデレート・ラーニング(FL)は、本質的にプライバシー侵害や毒殺攻撃の影響を受けやすい。
本稿では,DDF(Dual Defense Federated Learning)フレームワークを紹介する。
DDFedは、新たな参加者の役割を導入したり、既存のFLトポロジを破壊したりすることなく、プライバシー保護を強化し、毒殺攻撃を緩和する。
論文 参考訳(メタデータ) (2025-02-08T12:28:20Z) - Unified Physical-Digital Face Attack Detection [66.14645299430157]
顔認識(FR)システムは物理的(印刷写真)とデジタル(ディープフェイク)攻撃に悩まされることがある。
以前の関連する作業では、両方の状況が同時に考慮されることはめったにありません。
視覚言語モデル(VLM)に基づく一元攻撃検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-31T09:38:44Z) - Hyperbolic Face Anti-Spoofing [21.981129022417306]
双曲空間におけるよりリッチな階層的および差別的なスプーフィングキューを学習することを提案する。
単調なFAS学習では、特徴埋め込みはポアンカーボールに投影され、双対対対数回帰層は分類のためにカスケードされる。
双曲空間における消失勾配問題を緩和するために,双曲モデルのトレーニング安定性を高めるために,新しい特徴クリッピング法を提案する。
論文 参考訳(メタデータ) (2023-08-17T17:18:21Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。