論文の概要: SafeMobile: Chain-level Jailbreak Detection and Automated Evaluation for Multimodal Mobile Agents
- arxiv url: http://arxiv.org/abs/2507.00841v1
- Date: Tue, 01 Jul 2025 15:10:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.686169
- Title: SafeMobile: Chain-level Jailbreak Detection and Automated Evaluation for Multimodal Mobile Agents
- Title(参考訳): SafeMobile:マルチモーダルモバイルエージェントのチェーンレベルジェイルブレイク検出と自動評価
- Authors: Siyuan Liang, Tianmeng Fang, Zhe Liu, Aishan Liu, Yan Xiao, Jinyuan He, Ee-Chien Chang, Xiaochun Cao,
- Abstract要約: 本研究は,モバイルマルチモーダルエージェントを取り巻くセキュリティ問題について考察する。
行動シーケンス情報を組み込んだリスク識別機構の構築を試みる。
また、大規模言語モデルに基づく自動アセスメントスキームも設計している。
- 参考スコア(独自算出の注目度): 58.21223208538351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the wide application of multimodal foundation models in intelligent agent systems, scenarios such as mobile device control, intelligent assistant interaction, and multimodal task execution are gradually relying on such large model-driven agents. However, the related systems are also increasingly exposed to potential jailbreak risks. Attackers may induce the agents to bypass the original behavioral constraints through specific inputs, and then trigger certain risky and sensitive operations, such as modifying settings, executing unauthorized commands, or impersonating user identities, which brings new challenges to system security. Existing security measures for intelligent agents still have limitations when facing complex interactions, especially in detecting potentially risky behaviors across multiple rounds of conversations or sequences of tasks. In addition, an efficient and consistent automated methodology to assist in assessing and determining the impact of such risks is currently lacking. This work explores the security issues surrounding mobile multimodal agents, attempts to construct a risk discrimination mechanism by incorporating behavioral sequence information, and designs an automated assisted assessment scheme based on a large language model. Through preliminary validation in several representative high-risk tasks, the results show that the method can improve the recognition of risky behaviors to some extent and assist in reducing the probability of agents being jailbroken. We hope that this study can provide some valuable references for the security risk modeling and protection of multimodal intelligent agent systems.
- Abstract(参考訳): インテリジェントエージェントシステムにおけるマルチモーダル基礎モデルの広範な適用により、モバイルデバイス制御、インテリジェントアシスタントインタラクション、マルチモーダルタスク実行といったシナリオは、徐々にそのようなモデル駆動エージェントに依存している。
しかし、関連するシステムも、脱獄のリスクにさらされている。
攻撃者はエージェントに、特定の入力を通じて元の動作制限を回避させ、設定の変更、不正なコマンドの実行、ユーザIDの偽装など、特定の危険で機密性の高い操作をトリガーし、システムセキュリティに新たな課題をもたらす可能性がある。
知的エージェントの既存のセキュリティ対策は、複雑なインタラクションに直面している場合、特に複数の会話やタスクのシーケンスにわたって潜在的に危険な振る舞いを検出する場合に、依然として制限がある。
さらに、このようなリスクの影響を評価し、判断するのを支援する、効率的で一貫した自動化方法論が、現在欠落しています。
本研究では,移動型マルチモーダルエージェントを取り巻くセキュリティ問題について検討し,行動シーケンス情報を組み込んだリスク識別機構の構築を試みるとともに,大規模言語モデルに基づく自動評価手法を設計する。
代表的なハイリスクタスクの予備的検証を通じて,リスク行動の認識をある程度改善し,投獄されるエージェントの確率を低減できることを示す。
本研究は,マルチモーダル知的エージェントシステムのセキュリティリスクモデリングと保護のための貴重な参考資料を提供することができることを期待する。
関連論文リスト
- Towards Unifying Quantitative Security Benchmarking for Multi Agent Systems [0.0]
AIシステムの進化 自律エージェントが協力し、情報を共有し、プロトコルを開発することでタスクを委譲するマルチエージェントアーキテクチャをますます展開する。
そのようなリスクの1つはカスケードリスクである。あるエージェントの侵入はシステムを通してカスケードし、エージェント間の信頼を利用して他人を妥協させる。
ACI攻撃では、あるエージェントに悪意のあるインプットまたはツールエクスプロイトが注入され、そのアウトプットを信頼するエージェント間でカスケードの妥協とダウンストリーム効果が増幅される。
論文 参考訳(メタデータ) (2025-07-23T13:51:28Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - SV-LLM: An Agentic Approach for SoC Security Verification using Large Language Models [8.912091484067508]
SV-LLMは,システムオンチップ(SoC)セキュリティ検証の自動化と強化を目的とした,新しいマルチエージェントアシスタントシステムである。
検証質問応答、セキュリティ資産の識別、脅威モデリング、テスト計画とプロパティ生成、脆弱性検出、シミュレーションベースのバグ検証といったタスクのための特別なエージェントを統合することで、SV-LLMはワークフローを合理化する。
このシステムは,手作業による介入を減らすこと,精度の向上,セキュリティ分析の高速化,設計サイクルの初期段階におけるリスクの積極的な識別と緩和を支援することを目的としている。
論文 参考訳(メタデータ) (2025-06-25T13:31:13Z) - Kaleidoscopic Teaming in Multi Agent Simulations [75.47388708240042]
我々は,エージェントが行う複雑な行動,思考プロセス,行動の安全性リスクを評価する上で,既存のレッドチームや安全評価フレームワークは不十分であると主張している。
我々は,新しいコンテキスト内最適化手法を導入し,安全解析のためのより良いシナリオを生成する。
エージェントの安全性を測定するためのフレームワークとともに使用できる適切なメトリクスを提案する。
論文 参考訳(メタデータ) (2025-06-20T23:37:17Z) - Demonstrations of Integrity Attacks in Multi-Agent Systems [7.640342064257848]
マルチエージェントシステム(Multi-Agent Systems、MAS)は、システムの中核機能を破壊しずに自己利益を提供する悪意のあるエージェントに対して脆弱である可能性がある。
この研究は、悪意のあるエージェントが微妙なプロンプト操作を使用してバイアスMAS操作を行ない、様々な利益を得る、完全性攻撃を探索する。
論文 参考訳(メタデータ) (2025-06-05T02:44:49Z) - Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System [0.8136541584281987]
本研究は,3つの検査手法を用いて,逆チューリングテストによりローグエージェントを検出し,マルチエージェントシミュレーションにより知覚的アライメントを解析する。
GEMINI 1.5 Pro と llama-3.3-70B, Deepseek r1 モデルを用いて, 抗ジェイルブレイクシステムを開発した。
GEMINI 1.5 Proの94%の精度など、検出能力は強いが、長時間の攻撃を受けた場合、システムは永続的な脆弱性に悩まされる。
論文 参考訳(メタデータ) (2025-02-23T23:35:15Z) - Multi-Agent Risks from Advanced AI [90.74347101431474]
先進的なAIのマルチエージェントシステムは、新規で未発見のリスクを生じさせる。
エージェントのインセンティブに基づく3つの重要な障害モードと7つの重要なリスク要因を同定する。
各リスクのいくつかの重要な事例と、それらを緩和するための有望な方向性を強調します。
論文 参考訳(メタデータ) (2025-02-19T23:03:21Z) - AGrail: A Lifelong Agent Guardrail with Effective and Adaptive Safety Detection [47.83354878065321]
我々は,エージェントの安全性を高めるため,生涯のガードレールであるAGrailを提案する。
AGrailは適応型安全チェック生成、効果的な安全チェック最適化、ツールの互換性と柔軟性を備えている。
論文 参考訳(メタデータ) (2025-02-17T05:12:33Z) - PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety [70.84902425123406]
大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。
しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。
本研究では,エージェント心理学を基盤とした枠組み(PsySafe)を提案し,エージェントのダークパーソナリティ特性がリスク行動にどう影響するかを明らかにする。
実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。
論文 参考訳(メタデータ) (2024-01-22T12:11:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。