論文の概要: SafeMobile: Chain-level Jailbreak Detection and Automated Evaluation for Multimodal Mobile Agents
- arxiv url: http://arxiv.org/abs/2507.00841v1
- Date: Tue, 01 Jul 2025 15:10:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.686169
- Title: SafeMobile: Chain-level Jailbreak Detection and Automated Evaluation for Multimodal Mobile Agents
- Title(参考訳): SafeMobile:マルチモーダルモバイルエージェントのチェーンレベルジェイルブレイク検出と自動評価
- Authors: Siyuan Liang, Tianmeng Fang, Zhe Liu, Aishan Liu, Yan Xiao, Jinyuan He, Ee-Chien Chang, Xiaochun Cao,
- Abstract要約: 本研究は,モバイルマルチモーダルエージェントを取り巻くセキュリティ問題について考察する。
行動シーケンス情報を組み込んだリスク識別機構の構築を試みる。
また、大規模言語モデルに基づく自動アセスメントスキームも設計している。
- 参考スコア(独自算出の注目度): 58.21223208538351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the wide application of multimodal foundation models in intelligent agent systems, scenarios such as mobile device control, intelligent assistant interaction, and multimodal task execution are gradually relying on such large model-driven agents. However, the related systems are also increasingly exposed to potential jailbreak risks. Attackers may induce the agents to bypass the original behavioral constraints through specific inputs, and then trigger certain risky and sensitive operations, such as modifying settings, executing unauthorized commands, or impersonating user identities, which brings new challenges to system security. Existing security measures for intelligent agents still have limitations when facing complex interactions, especially in detecting potentially risky behaviors across multiple rounds of conversations or sequences of tasks. In addition, an efficient and consistent automated methodology to assist in assessing and determining the impact of such risks is currently lacking. This work explores the security issues surrounding mobile multimodal agents, attempts to construct a risk discrimination mechanism by incorporating behavioral sequence information, and designs an automated assisted assessment scheme based on a large language model. Through preliminary validation in several representative high-risk tasks, the results show that the method can improve the recognition of risky behaviors to some extent and assist in reducing the probability of agents being jailbroken. We hope that this study can provide some valuable references for the security risk modeling and protection of multimodal intelligent agent systems.
- Abstract(参考訳): インテリジェントエージェントシステムにおけるマルチモーダル基礎モデルの広範な適用により、モバイルデバイス制御、インテリジェントアシスタントインタラクション、マルチモーダルタスク実行といったシナリオは、徐々にそのようなモデル駆動エージェントに依存している。
しかし、関連するシステムも、脱獄のリスクにさらされている。
攻撃者はエージェントに、特定の入力を通じて元の動作制限を回避させ、設定の変更、不正なコマンドの実行、ユーザIDの偽装など、特定の危険で機密性の高い操作をトリガーし、システムセキュリティに新たな課題をもたらす可能性がある。
知的エージェントの既存のセキュリティ対策は、複雑なインタラクションに直面している場合、特に複数の会話やタスクのシーケンスにわたって潜在的に危険な振る舞いを検出する場合に、依然として制限がある。
さらに、このようなリスクの影響を評価し、判断するのを支援する、効率的で一貫した自動化方法論が、現在欠落しています。
本研究では,移動型マルチモーダルエージェントを取り巻くセキュリティ問題について検討し,行動シーケンス情報を組み込んだリスク識別機構の構築を試みるとともに,大規模言語モデルに基づく自動評価手法を設計する。
代表的なハイリスクタスクの予備的検証を通じて,リスク行動の認識をある程度改善し,投獄されるエージェントの確率を低減できることを示す。
本研究は,マルチモーダル知的エージェントシステムのセキュリティリスクモデリングと保護のための貴重な参考資料を提供することができることを期待する。
関連論文リスト
- Kaleidoscopic Teaming in Multi Agent Simulations [75.47388708240042]
我々は,エージェントが行う複雑な行動,思考プロセス,行動の安全性リスクを評価する上で,既存のレッドチームや安全評価フレームワークは不十分であると主張している。
我々は,新しいコンテキスト内最適化手法を導入し,安全解析のためのより良いシナリオを生成する。
エージェントの安全性を測定するためのフレームワークとともに使用できる適切なメトリクスを提案する。
論文 参考訳(メタデータ) (2025-06-20T23:37:17Z) - Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System [0.8136541584281987]
本研究は,3つの検査手法を用いて,逆チューリングテストによりローグエージェントを検出し,マルチエージェントシミュレーションにより知覚的アライメントを解析する。
GEMINI 1.5 Pro と llama-3.3-70B, Deepseek r1 モデルを用いて, 抗ジェイルブレイクシステムを開発した。
GEMINI 1.5 Proの94%の精度など、検出能力は強いが、長時間の攻撃を受けた場合、システムは永続的な脆弱性に悩まされる。
論文 参考訳(メタデータ) (2025-02-23T23:35:15Z) - Multi-Agent Risks from Advanced AI [90.74347101431474]
先進的なAIのマルチエージェントシステムは、新規で未発見のリスクを生じさせる。
エージェントのインセンティブに基づく3つの重要な障害モードと7つの重要なリスク要因を同定する。
各リスクのいくつかの重要な事例と、それらを緩和するための有望な方向性を強調します。
論文 参考訳(メタデータ) (2025-02-19T23:03:21Z) - AGrail: A Lifelong Agent Guardrail with Effective and Adaptive Safety Detection [47.83354878065321]
我々は,エージェントの安全性を高めるため,生涯のガードレールであるAGrailを提案する。
AGrailは適応型安全チェック生成、効果的な安全チェック最適化、ツールの互換性と柔軟性を備えている。
論文 参考訳(メタデータ) (2025-02-17T05:12:33Z) - PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety [70.84902425123406]
大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。
しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。
本研究では,エージェント心理学を基盤とした枠組み(PsySafe)を提案し,エージェントのダークパーソナリティ特性がリスク行動にどう影響するかを明らかにする。
実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。
論文 参考訳(メタデータ) (2024-01-22T12:11:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。