論文の概要: From AI-Generated Content to Agentic Action: Security and Safety Threats in Generative AI
- arxiv url: http://arxiv.org/abs/2605.16471v1
- Date: Fri, 15 May 2026 13:53:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 17:00:32.62932
- Title: From AI-Generated Content to Agentic Action: Security and Safety Threats in Generative AI
- Title(参考訳): AI生成コンテンツからエージェントアクションへ:ジェネレーティブAIにおけるセキュリティと安全性の脅威
- Authors: Zelin Zhang, Qi Li, Jie Cao, Lingshuang Liu, Jianbing Ni,
- Abstract要約: 本研究は、コンテンツレベル、モデルレベル、エージェントレベルの脅威に移行した際のセキュリティと安全性について検討する。
我々は、モデルがアーティファクトの生成からツールチェーンや外部APIによる操作の実行に移行するにつれて、攻撃者のアクセス要件、システム自律性、潜在的な有害な変化の範囲をどのように分析する。
- 参考スコア(独自算出の注目度): 14.644207081930817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative AI systems are increasingly used not only to produce content but also to retrieve data, invoke tools, and execute actions. This work examines the security and safety implications of that shift across content-level, model-level, and agentic threats. We analyze how attacker access requirements, system autonomy, and the scope of potential harm change as models move from generating artifacts to executing operations through tool chains and external APIs. We then assess technical countermeasures including detection, watermarking, alignment, and emerging agentic safeguards, and show that several depend on forms of institutional coordination that current governance arrangements do not yet provide. Across the cases examined, capability deployment and attack-surface expansion repeatedly outpace defensive responses as systems move from generating content to executing real-world actions.
- Abstract(参考訳): 生成AIシステムは、コンテンツの生成だけでなく、データ検索、ツールの呼び出し、アクションの実行にもますます利用されている。
本研究は、コンテンツレベル、モデルレベル、エージェントレベルの脅威に移行した際のセキュリティと安全性について検討する。
我々は、モデルがアーティファクトの生成からツールチェーンや外部APIによる操作の実行に移行するにつれて、攻撃者のアクセス要件、システム自律性、潜在的な有害な変化の範囲をどのように分析する。
次に、検出、透かし、アライメント、新たなエージェントセーフガードを含む技術的対策を評価し、現在のガバナンス体制がまだ提供していない制度的調整の形態に依存するものもいくつかあることを示す。
検証されたケース全体で、能力展開と攻撃面の拡大は、システムがコンテンツの生成から現実のアクションの実行へと移行する際の防御的応答を何度も上回っている。
関連論文リスト
- DecodingTrust-Agent Platform (DTap): A Controllable and Interactive Red-Teaming Platform for AI Agents [121.77550256034]
DecodingTrust-Agent Platform (DTap)は、AIエージェントのためのコントロール可能でインタラクティブなレッドチームプラットフォームである。
DTap-Redは、多様なインジェクションベクターを探索し、効果的な攻撃戦略を自律的に発見する、最初の自律的赤チームエージェントである。
DTapを通じて、さまざまなバックボーンモデル上に構築された一般的なAIエージェントの大規模評価を行う。
論文 参考訳(メタデータ) (2026-05-06T11:59:48Z) - SoK: The Attack Surface of Agentic AI -- Tools, and Autonomy [3.340255811686752]
最近のAIシステムは、大規模な言語モデルとツール、検索強化生成(RAG)による外部知識を組み合わせている。
このエージェントAIパラダイムは、能力を大幅に拡張すると同時に、攻撃面を大きく拡大する。
我々は、即時レベルの注射、知識ベース中毒、ツール/プラグインエクスプロイト、マルチエージェント緊急脅威にまたがる攻撃の包括的分類を開発する。
論文 参考訳(メタデータ) (2026-03-24T08:21:51Z) - Securing AI Agents in Cyber-Physical Systems: A Survey of Environmental Interactions, Deepfake Threats, and Defenses [2.6726842616701703]
この調査は、サイバー物理システムにおけるAIエージェントをターゲットにしたセキュリティ脅威の包括的なレビューを提供する。
我々は、環境相互作用、ディープフェイクによる攻撃、MCPによる脆弱性に焦点を当てる。
タイミング、騒音、偽陽性がいかに制約可能な防御を犠牲にするかを定量的に説明する。
論文 参考訳(メタデータ) (2026-01-28T02:33:24Z) - CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents [60.98294016925157]
AIエージェントは、悪意のあるコンテンツがエージェントの行動をハイジャックして認証情報を盗んだり、金銭的損失を引き起こすような、インジェクション攻撃に弱い。
CUAのためのシングルショットプランニングでは、信頼できるプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件付きブランチで完全な実行グラフを生成する。
このアーキテクチャ分離は命令インジェクションを効果的に防止するが、ブランチステアリング攻撃を防ぐには追加の対策が必要であることを示す。
論文 参考訳(メタデータ) (2026-01-14T23:06:35Z) - Towards Verifiably Safe Tool Use for LLM Agents [53.55621104327779]
大規模言語モデル(LLM)ベースのAIエージェントは、データソース、API、検索エンジン、コードサンドボックス、さらにはその他のエージェントなどのツールへのアクセスを可能にすることで、機能を拡張する。
LLMは意図しないツールインタラクションを起動し、機密データを漏洩したり、クリティカルレコードを上書きしたりするリスクを発生させる。
モデルベースセーフガードのようなリスクを軽減するための現在のアプローチは、エージェントの信頼性を高めるが、システムの安全性を保証することはできない。
論文 参考訳(メタデータ) (2026-01-12T21:31:38Z) - A Survey of Agentic AI and Cybersecurity: Challenges, Opportunities and Use-case Prototypes [7.02443431688472]
Agentic AIは、単一ステップ生成モデルから、長期的タスクに対する推論、計画、行動、適応が可能なシステムへの重要な転換点である。
本調査は,サイバーセキュリティにおけるエージェントAIの影響について検討する。
論文 参考訳(メタデータ) (2026-01-08T02:46:06Z) - OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows [77.95511352806261]
VLM(Vision-Language Models)を利用したコンピュータ利用エージェントは、モバイルプラットフォームのようなデジタル環境を操作する上で、人間のような能力を実証している。
我々は,明示的なシステムレベルの違反を検出するための形式検証器と,文脈的リスクとエージェント行動を評価するコンテキスト判断器を組み合わせた,新しいハイブリッド安全検出フレームワークOS-Sentinelを提案する。
論文 参考訳(メタデータ) (2025-10-28T13:22:39Z) - Towards Unifying Quantitative Security Benchmarking for Multi Agent Systems [0.0]
AIシステムの進化 自律エージェントが協力し、情報を共有し、プロトコルを開発することでタスクを委譲するマルチエージェントアーキテクチャをますます展開する。
そのようなリスクの1つはカスケードリスクである。あるエージェントの侵入はシステムを通してカスケードし、エージェント間の信頼を利用して他人を妥協させる。
ACI攻撃では、あるエージェントに悪意のあるインプットまたはツールエクスプロイトが注入され、そのアウトプットを信頼するエージェント間でカスケードの妥協とダウンストリーム効果が増幅される。
論文 参考訳(メタデータ) (2025-07-23T13:51:28Z) - SafeMobile: Chain-level Jailbreak Detection and Automated Evaluation for Multimodal Mobile Agents [58.21223208538351]
本研究は,モバイルマルチモーダルエージェントを取り巻くセキュリティ問題について考察する。
行動シーケンス情報を組み込んだリスク識別機構の構築を試みる。
また、大規模言語モデルに基づく自動アセスメントスキームも設計している。
論文 参考訳(メタデータ) (2025-07-01T15:10:00Z) - Securing Generative AI Agentic Workflows: Risks, Mitigation, and a Proposed Firewall Architecture [0.0]
Generative Artificial Intelligence(GenAI)は、大きな進歩を示すと同時に、新たなセキュリティ課題も導入している。
本稿では、データプライバシやモデル操作、エージェントの自律性やシステム統合に関わる問題など、GenAIエージェントに固有の重要なセキュリティ脆弱性について概説する。
提案されている"GenAI Security Firewall"アーキテクチャは、これらのシステムに対して包括的で、適応可能で、効率的な保護を提供するように設計されている。
論文 参考訳(メタデータ) (2025-06-10T07:36:54Z) - SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。