論文の概要: Toward Trustworthy Agentic AI: A Multimodal Framework for Preventing Prompt Injection Attacks
- arxiv url: http://arxiv.org/abs/2512.23557v1
- Date: Mon, 29 Dec 2025 15:54:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.566249
- Title: Toward Trustworthy Agentic AI: A Multimodal Framework for Preventing Prompt Injection Attacks
- Title(参考訳): 信頼できるエージェントAIを目指して - プロンプトインジェクション攻撃防止のためのマルチモーダルフレームワーク
- Authors: Toqeer Ali Syed, Mishal Ateeq Almutairi, Mahmoud Abdel Moaty,
- Abstract要約: 本稿ではエージェントAIシステムのためのクロスエージェントマルチモーダル・プロベナンク・アウェアディフェンス・フレームワークを提案する。
フレームワークには、テキストサニタイザエージェント、ビジュアルサニタイザエージェント、および出力バリデータエージェントが含まれており、いずれも前駆体台帳によって調整されている。
実験の結果,マルチモーダル噴射検出精度は著しく向上し,クロスエージェント信頼リークを最小限に抑えることができた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Powerful autonomous systems, which reason, plan, and converse using and between numerous tools and agents, are made possible by Large Language Models (LLMs), Vision-Language Models (VLMs), and new agentic AI systems, like LangChain and GraphChain. Nevertheless, this agentic environment increases the probability of the occurrence of multimodal prompt injection (PI) attacks, in which concealed or malicious instructions carried in text, pictures, metadata, or agent-to-agent messages may spread throughout the graph and lead to unintended behavior, a breach of policy, or corruption of state. In order to mitigate these risks, this paper suggests a Cross-Agent Multimodal Provenanc- Aware Defense Framework whereby all the prompts, either user-generated or produced by upstream agents, are sanitized and all the outputs generated by an LLM are verified independently before being sent to downstream nodes. This framework contains a Text sanitizer agent, visual sanitizer agent, and output validator agent all coordinated by a provenance ledger, which keeps metadata of modality, source, and trust level throughout the entire agent network. This architecture makes sure that agent-to-agent communication abides by clear trust frames such such that injected instructions are not propagated down LangChain or GraphChain-style-workflows. The experimental assessments show that multimodal injection detection accuracy is significantly enhanced, and the cross-agent trust leakage is minimized, as well as, agentic execution pathways become stable. The framework, which expands the concept of provenance tracking and validation to the multi-agent orchestration, enhances the establishment of secure, understandable and reliable agentic AI systems.
- Abstract(参考訳): 多数のツールとエージェントの使用、計画、会話を行う強力な自律システムは、Large Language Models(LLM)、Vision-Language Models(VLM)、LangChainやGraphChainといった新しいエージェントAIシステムによって実現されている。
それでも、このエージェント環境は、テキスト、画像、メタデータ、エージェントからエージェントへのメッセージに隠されたまたは悪意のある命令がグラフ全体に広まり、意図しない振る舞い、ポリシー違反、あるいは国家の腐敗を引き起こす、マルチモーダル・プロンプト・インジェクション(PI)攻撃の発生の確率を高める。
本稿では,これらのリスクを軽減するために,ユーザ生成あるいは上流エージェントが生成するすべてのプロンプトを衛生化し,LLMが生成するすべての出力を下流ノードに送信する前に独立して検証するクロスアジェントマルチモーダル・プロヴァンク・アウェアディフェンス・フレームワークを提案する。
このフレームワークは、テキストサニタイザエージェント、ビジュアルサニタイザエージェント、および出力バリケータエージェントを全て前処理台帳で調整し、エージェントネットワーク全体を通して、モダリティ、ソース、信頼レベルのメタデータを保持する。
このアーキテクチャは、インジェクション命令がLangChainやGraphChainスタイルのワークフローに伝達されないような、明確な信頼枠によってエージェント間通信が守られるようにしている。
実験により,マルチモーダルインジェクション検出精度が著しく向上し,エージェント実行経路が安定すると共に,クロスエージェント信頼リークを最小限に抑えることが示された。
証明追跡と検証の概念をマルチエージェントオーケストレーションに拡張したこのフレームワークは、セキュアで理解可能で信頼性の高いエージェントAIシステムの構築を促進する。
関連論文リスト
- Explainable and Fine-Grained Safeguarding of LLM Multi-Agent Systems via Bi-Level Graph Anomaly Detection [76.91230292971115]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は複雑なタスクを解く上で強力な能力を示している。
XG-Guardは、MAS内の悪意のあるエージェントを検出するための、説明可能な、きめ細かい保護フレームワークである。
論文 参考訳(メタデータ) (2025-12-21T13:46:36Z) - Exposing Weak Links in Multi-Agent Systems under Adversarial Prompting [5.544819942438653]
本稿では,マルチエージェントシステムのセキュリティ評価を行うフレームワークであるSafeAgentsを提案する。
広く採用されている5つのマルチエージェントアーキテクチャについて検討する。
この結果から,一般的なデザインパターンには重大な脆弱性があることが判明した。
論文 参考訳(メタデータ) (2025-11-14T04:22:49Z) - Sentinel Agents for Secure and Trustworthy Agentic AI in Multi-Agent Systems [0.42970700836450487]
本稿では,マルチエージェントシステム(MAS)のセキュリティと信頼性向上を目的とした新しいアーキテクチャフレームワークを提案する。
このフレームワークの中心的なコンポーネントは、分散セキュリティ層として機能するSentinel Agentsのネットワークである。
このようなエージェントは、エージェント間のコミュニケーションを監督し、潜在的な脅威を特定し、プライバシーとアクセス制御を強制し、包括的な監査記録を維持することができる。
論文 参考訳(メタデータ) (2025-09-18T13:39:59Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - AgentArmor: Enforcing Program Analysis on Agent Runtime Trace to Defend Against Prompt Injection [14.522205401511727]
大きな言語モデル(LLM)エージェントは、自然言語推論と外部ツールの実行を組み合わせることで、さまざまな問題を解決するための強力な新しいパラダイムを提供する。
本研究では,エージェントランタイムトレースを解析可能なセマンティクスを用いた構造化プログラムとして扱う新しい知見を提案する。
本稿では,エージェントトレースをグラフ中間表現に基づく構造化プログラム依存表現に変換するプログラム解析フレームワークであるAgentArmorを提案する。
論文 参考訳(メタデータ) (2025-08-02T07:59:34Z) - Towards Unifying Quantitative Security Benchmarking for Multi Agent Systems [0.0]
AIシステムの進化 自律エージェントが協力し、情報を共有し、プロトコルを開発することでタスクを委譲するマルチエージェントアーキテクチャをますます展開する。
そのようなリスクの1つはカスケードリスクである。あるエージェントの侵入はシステムを通してカスケードし、エージェント間の信頼を利用して他人を妥協させる。
ACI攻撃では、あるエージェントに悪意のあるインプットまたはツールエクスプロイトが注入され、そのアウトプットを信頼するエージェント間でカスケードの妥協とダウンストリーム効果が増幅される。
論文 参考訳(メタデータ) (2025-07-23T13:51:28Z) - SentinelAgent: Graph-based Anomaly Detection in Multi-Agent Systems [11.497269773189254]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)に適したシステムレベルの異常検出フレームワークを提案する。
本稿では,エージェント間相互作用を動的実行グラフとしてモデル化し,ノード,エッジ,パスレベルでの意味的異常検出を可能にするグラフベースのフレームワークを提案する。
第2に,セキュリティポリシとコンテキスト推論に基づくMAS実行の監視,解析,介入を行うLLMによる監視エージェントである,プラグイン可能なSentinelAgentを導入する。
論文 参考訳(メタデータ) (2025-05-30T04:25:19Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。