論文の概要: Semantic Intent Fragmentation: A Single-Shot Compositional Attack on Multi-Agent AI Pipelines
- arxiv url: http://arxiv.org/abs/2604.08608v1
- Date: Wed, 08 Apr 2026 18:19:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.484736
- Title: Semantic Intent Fragmentation: A Single-Shot Compositional Attack on Multi-Agent AI Pipelines
- Title(参考訳): Semantic Intent Fragmentation: マルチエージェントAIパイプラインにおけるシングルショット構成攻撃
- Authors: Tanzim Ahad, Ismail Hossain, Md Jahangir Alam, Sai Puppala, Yoonpyo Lee, Syed Bahauddin Alam, Sajedul Talukder,
- Abstract要約: LLMオーケストレーションシステムに対する攻撃クラスとして,SIF(Semantic Intent Fragmentation)を導入する。
SIFは、バルクスコープ、サイレントデータ抽出、組み込みトリガデプロイメント、擬似識別アグリゲーションの4つのメカニズムを利用する。
GPT-20Bオーケストレータは71%のケースでポリシー違反の計画を作成し、各サブタスクは良心的に見える。
- 参考スコア(独自算出の注目度): 0.9772267314090434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Semantic Intent Fragmentation (SIF), an attack class against LLM orchestration systems where a single, legitimately phrased request causes an orchestrator to decompose a task into subtasks that are individually benign but jointly violate security policy. Current safety mechanisms operate at the subtask level, so each step clears existing classifiers -- the violation only emerges at the composed plan. SIF exploits OWASP LLM06:2025 through four mechanisms: bulk scope escalation, silent data exfiltration, embedded trigger deployment, and quasi-identifier aggregation, requiring no injected content, no system modification, and no attacker interaction after the initial request. We construct a three-stage red-teaming pipeline grounded in OWASP, MITRE ATLAS, and NIST frameworks to generate realistic enterprise scenarios. Across 14 scenarios spanning financial reporting, information security, and HR analytics, a GPT-20B orchestrator produces policy-violating plans in 71% of cases (10/14) while every subtask appears benign. Three independent signals validate this: deterministic taint analysis, chain-of-thought evaluation, and a cross-model compliance judge with 0% false positives. Stronger orchestrators increase SIF success rates. Plan-level information-flow tracking combined with compliance evaluation detects all attacks before execution, showing the compositional safety gap is closable.
- Abstract(参考訳): 本稿では,LLMオーケストレーションシステムに対する攻撃クラスであるSemantic Intent Fragmentation(SIF)を紹介する。
現在の安全メカニズムはサブタスクレベルで動作するため、各ステップは既存の分類器をクリアします。
SIFはOWASP LLM06:2025を、バルクスコープエスカレーション、サイレントデータ抽出、組み込みトリガー展開、準識別器集約という4つのメカニズムを通じて活用している。
OWASP、MITRE ATLAS、NISTフレームワークをベースとした3段階のレッドチームパイプラインを構築し、現実的なエンタープライズシナリオを生成する。
財務報告、情報セキュリティ、人事分析にまたがる14のシナリオで、GPT-20Bオーケストレータは71%(10/14)のケースでポリシー違反の計画を作成している。
3つの独立した信号がこれを検証している: 決定論的テイント分析、チェーン・オブ・プリート評価、および0%の偽陽性を有するモデル間のコンプライアンス判断である。
より強いオーケストレータは、SIFの成功率を高める。
計画レベルの情報フロー追跡とコンプライアンス評価を組み合わせることで、実行前のすべての攻撃を検出し、構成上の安全性のギャップが閉鎖可能であることを示す。
関連論文リスト
- CORA: Conformal Risk-Controlled Agents for Safeguarded Mobile GUI Automation [68.53387633351484]
有害な行為に対する統計的保証を提供するポスト・ポリティクス・プレアクション保護フレームワークであるCORA(Conformal Risk-control GUI Agent)を提案する。
CORAは、安全を選択的行動実行として再定義する:我々は、提案されたステップごとに行動条件リスクを推定するためにガーディアンモデルを訓練する。
このパラダイムを厳格に評価するために、ステップレベルのハーモラベルを持つモバイル安全違反の新しいベンチマークであるPhone-Harmを紹介する。
論文 参考訳(メタデータ) (2026-04-10T09:41:21Z) - AgenticCyOps: Securing Multi-Agentic AI Integration in Enterprise Cyber Operations [7.660803748903973]
マルチエージェントシステム(MAS)は適応的で推論駆動の企業を約束するが、ツール、メモリ、通信の自律的な制御をエージェントに与えることで、決定論的パイプラインが欠如する攻撃面を導入する。
AgenticCyOpsは、コンポーネント層、調整層、プロトコル層にまたがる攻撃面を体系的に分解するフレームワークである。
このフレームワークをSecurity Operations Center(SOC)ワークフローに適用し、モデルコンテキストプロトコル(MCP)を構造基盤として採用する。
論文 参考訳(メタデータ) (2026-03-10T03:15:36Z) - Internal Safety Collapse in Frontier Large Language Models [65.00730294617382]
この研究は、フロンティア大言語モデル(LLM)における重要な障害モードを特定する。
特定のタスク条件下では、モデルは有害なコンテンツを連続的に生成し、そうでなければ良質なタスクを実行する状態に入る。
有害なコンテンツを生成することが唯一有効な完了であるドメインタスクを通じてISCをトリガーするフレームワークであるTVDを紹介する。
論文 参考訳(メタデータ) (2026-03-04T12:55:34Z) - SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks [53.97948802255959]
本稿では,既存の戦略や外部データに頼ることなく,マルチターン攻撃者を訓練するフレームワークを提案する。
準備された自己調整は、非拒否的で、よく構造化された、多ターンの逆のプロンプトを微調整することで、使用可能なロールアウトを可能にする。
私たちは、意図の整合性、コンプライアンスリスク、詳細レベルを組み合わせたインテントドリフト対応の報酬を通じて、多ターンジェイルブレイクにおける有害な意図を保ちます。
論文 参考訳(メタデータ) (2026-02-06T16:44:57Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - STAC: When Innocent Tools Form Dangerous Chains to Jailbreak LLM Agents [38.755035623707656]
本稿では,エージェントツールの利用を生かした新しいマルチターンアタックフレームワークSTACについて紹介する。
我々は,483のSTACケースを自動生成し,評価するために,1,352セットのユーザエージェント環境相互作用を特徴とするフレームワークを適用した。
GPT-4.1を含む最先端のLSMエージェントはSTACに対して極めて脆弱であり,攻撃成功率(ASR)は90%以上である。
論文 参考訳(メタデータ) (2025-09-30T00:31:44Z) - A Multi-Agent LLM Defense Pipeline Against Prompt Injection Attacks [1.1435139523855764]
本稿では,インジェクション攻撃をリアルタイムに検出・中和する新しいマルチエージェント・ディフェンス・フレームワークを提案する。
我々は2つの異なるアーキテクチャ、シーケンシャル・チェーン・オブ・エージェント・パイプラインと階層的コーディネータ・ベース・システムを用いてアプローチを評価した。
論文 参考訳(メタデータ) (2025-09-16T19:11:28Z) - Servant, Stalker, Predator: How An Honest, Helpful, And Harmless (3H) Agent Unlocks Adversarial Skills [3.0620527758972496]
本稿では,モデルコンテキストプロトコルに基づくエージェントシステムにおいて,新たな脆弱性クラスを特定し,解析する。
このアタックチェーンは、有害な緊急行動を生み出すために、個々に認可された個々のタスクをどのように編成するかを説明し、実証する。
論文 参考訳(メタデータ) (2025-08-27T01:11:59Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。