論文の概要: Multi-Agent Framework for Threat Mitigation and Resilience in AI-Based Systems
- arxiv url: http://arxiv.org/abs/2512.23132v1
- Date: Mon, 29 Dec 2025 01:27:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.371288
- Title: Multi-Agent Framework for Threat Mitigation and Resilience in AI-Based Systems
- Title(参考訳): AIシステムにおける脅威軽減とレジリエンスのためのマルチエージェントフレームワーク
- Authors: Armstrong Foundjem, Lionel Nganyewou Tidjon, Leuson Da Silva, Foutse Khomh,
- Abstract要約: 従来のサイバーセキュリティは、基礎、マルチモーダル、RAGシステムのML固有の脅威モデリングを欠いている。
我々は、MITRE ATLAS、AI Incident Database、文献から93の脅威を抽出し、854のGitHub/Pythonリポジトリを分析した。
商用LLM APIモデル盗難、パラメータ記憶リーク、優先誘導型テキスト専用ジェイルブレイクなどの未報告の脅威を識別する。
- 参考スコア(独自算出の注目度): 6.850914615021645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) underpins foundation models in finance, healthcare, and critical infrastructure, making them targets for data poisoning, model extraction, prompt injection, automated jailbreaking, and preference-guided black-box attacks that exploit model comparisons. Larger models can be more vulnerable to introspection-driven jailbreaks and cross-modal manipulation. Traditional cybersecurity lacks ML-specific threat modeling for foundation, multimodal, and RAG systems. Objective: Characterize ML security risks by identifying dominant TTPs, vulnerabilities, and targeted lifecycle stages. Methods: We extract 93 threats from MITRE ATLAS (26), AI Incident Database (12), and literature (55), and analyze 854 GitHub/Python repositories. A multi-agent RAG system (ChatGPT-4o, temp 0.4) mines 300+ articles to build an ontology-driven threat graph linking TTPs, vulnerabilities, and stages. Results: We identify unreported threats including commercial LLM API model stealing, parameter memorization leakage, and preference-guided text-only jailbreaks. Dominant TTPs include MASTERKEY-style jailbreaking, federated poisoning, diffusion backdoors, and preference optimization leakage, mainly impacting pre-training and inference. Graph analysis reveals dense vulnerability clusters in libraries with poor patch propagation. Conclusion: Adaptive, ML-specific security frameworks, combining dependency hygiene, threat intelligence, and monitoring, are essential to mitigate supply-chain and inference risks across the ML lifecycle.
- Abstract(参考訳): マシンラーニング(ML)は、ファイナンス、ヘルスケア、重要なインフラストラクチャの基本モデルを支えるもので、データ中毒、モデル抽出、インジェクションのプロンプトインジェクション、自動ジェイルブレイク、モデル比較を利用する優先誘導ブラックボックス攻撃のターゲットとなる。
より大きなモデルは、イントロスペクション駆動のジェイルブレイクやクロスモーダル操作に対してより脆弱である。
従来のサイバーセキュリティは、基礎、マルチモーダル、RAGシステムのML固有の脅威モデリングを欠いている。
目的: 支配的なTTP、脆弱性、ターゲットとするライフサイクルステージを特定して、MLセキュリティリスクを特徴付ける。
方法: MITRE ATLAS (26), AI Incident Database (12), literature (55), そして854のGitHub/Pythonリポジトリから93の脅威を抽出する。
マルチエージェントRAGシステム(ChatGPT-4o, temp 0.4)は、TTP、脆弱性、ステージをリンクするオントロジー駆動の脅威グラフを構築するために300以上の記事をマイニングする。
結果: 商用LLM APIモデル盗難,パラメータ記憶リーク, 優先誘導によるテキストのみのジェイルブレイクなど,未報告の脅威を特定した。
主要なTTPには、MASTERKEYスタイルのジェイルブレイク、フェデレーション中毒、拡散バックドア、優先最適化リークなどがあり、主に事前訓練や推論に影響を及ぼす。
グラフ解析では、パッチの伝搬が貧弱なライブラリの脆弱性クラスタが密集している。
結論: 依存関係の衛生、脅威インテリジェンス、監視を組み合わせた、ML固有のアダプティブなセキュリティフレームワークは、MLライフサイクル全体のサプライチェーンと推論リスクを軽減する上で不可欠です。
関連論文リスト
- Odysseus: Jailbreaking Commercial Multimodal LLM-integrated Systems via Dual Steganography [77.44136793431893]
本稿では,悪質なクエリを隠蔽して良質な画像に埋め込むために,二重ステガノグラフィーを導入した新しいjailbreakパラダイムを提案する。
我々のOdysseusはいくつかの先駆的で現実的なMLLM統合システムを脱獄し、最大99%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-12-23T08:53:36Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - Mind Your Server: A Systematic Study of Parasitic Toolchain Attacks on the MCP Ecosystem [13.95558554298296]
大規模言語モデル(LLM)は、モデルコンテキストプロトコル(MCP)を通じて、外部システムとますます統合される。
本稿では,MCP Unintended Privacy Disclosure (MCP-UPD) としてインスタンス化された新たな攻撃方法であるParasitic Toolchain Attacksを明らかにする。
悪意のあるロジックはツールチェーンに侵入し,寄生的取り込み,プライバシコレクション,プライバシ開示という3つのフェーズで展開する。
論文 参考訳(メタデータ) (2025-09-08T11:35:32Z) - ATAG: AI-Agent Application Threat Assessment with Attack Graphs [23.757154032523093]
本稿では,Attack Graphs (ATAG) を用いたAIエージェントアプリケーションThreatアセスメントを提案する。
ATAGは、AIエージェントアプリケーションに関連するセキュリティリスクを体系的に分析するために設計された、新しいフレームワークである。
マルチエージェントアプリケーションにおけるAIエージェント脅威の積極的な識別と緩和を容易にする。
論文 参考訳(メタデータ) (2025-06-03T13:25:40Z) - Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。
LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。
本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-06-02T04:33:56Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。
本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。
我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文 参考訳(メタデータ) (2025-02-12T17:19:36Z) - Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models [17.663550432103534]
マルチモーダル大言語モデル(MLLM)は、多モーダル情報を包括的に理解するためにLLMの能力を拡張する。
これらのモデルは、悪意のあるユーザーがターゲットモデルの安全アライメントを壊し、誤解を招く、有害な回答を発生させることができるジェイルブレイク攻撃の影響を受けやすい。
本稿では,悪質な摂動画像入力を識別するプラグイン・アンド・プレイのジェイルブレイク検出装置であるCIDERを提案する。
論文 参考訳(メタデータ) (2024-07-31T15:02:46Z) - Threat Assessment in Machine Learning based Systems [12.031113181911627]
我々は機械学習に基づくシステムに対して報告された脅威を実証研究する。
この研究は、MITREのATLASデータベース、AIインシデントデータベース、および文学からの89の現実世界のML攻撃シナリオに基づいている。
その結果,畳み込みニューラルネットワークは攻撃シナリオの中でも最も標的となるモデルの一つであることがわかった。
論文 参考訳(メタデータ) (2022-06-30T20:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。