論文の概要: sudo rm -rf agentic_security
- arxiv url: http://arxiv.org/abs/2503.20279v1
- Date: Wed, 26 Mar 2025 07:08:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:22:20.269163
- Title: sudo rm -rf agentic_security
- Title(参考訳): sudo rm -rf Agentic_security
- Authors: Sejin Lee, Jian Kim, Haon Park, Ashkan Yousefpour, Sangyoon Yu, Min Song,
- Abstract要約: 我々は,商業用コンピュータ利用エージェントにおける拒否訓練された安全ガードを回避可能な,新たな攻撃フレームワークであるSUDOを提案する。
コアメカニズムであるDetox2Toxは、有害なリクエスト(エージェントが最初に拒否する)を、一見良心的なリクエストに変換する。
また、高度な視覚言語モデル(VLM)からの詳細な指示を保証し、毒化によって悪意のあるコンテンツを再導入する。
- 参考スコア(独自算出の注目度): 1.6561363996896472
- License:
- Abstract: Large Language Models (LLMs) are increasingly deployed as computer-use agents, autonomously performing tasks within real desktop or web environments. While this evolution greatly expands practical use cases for humans, it also creates serious security exposures. We present SUDO (Screen-based Universal Detox2Tox Offense), a novel attack framework that systematically bypasses refusal trained safeguards in commercial computer-use agents, such as Claude Computer Use. The core mechanism, Detox2Tox, transforms harmful requests (that agents initially reject) into seemingly benign requests via detoxification, secures detailed instructions from advanced vision language models (VLMs), and then reintroduces malicious content via toxification just before execution. Unlike conventional jailbreaks, SUDO iteratively refines its attacks based on a built-in refusal feedback, making it increasingly effective against robust policy filters. In extensive tests spanning 50 real-world tasks and multiple state-of-the-art VLMs, SUDO achieves a stark attack success rate of 24% (with no refinement), and up to 41% (by its iterative refinement) in Claude Computer Use. By revealing these vulnerabilities and demonstrating the ease with which they can be exploited in real-world computing environments, this paper highlights an immediate need for robust, context-aware safeguards. WARNING: This paper includes harmful or offensive model outputs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コンピュータ利用エージェントとしてますます多くデプロイされ、実際のデスクトップやWeb環境内で自律的にタスクを実行する。
この進化は、人間の実用的なユースケースを大幅に拡大する一方で、深刻なセキュリティ露出も生み出します。
我々は,Claude Computer Useなどの商用コンピュータ利用エージェントにおいて,拒否訓練された安全対策を系統的に回避する新たな攻撃フレームワークであるSUDO(Screen-based Universal Detox2Tox Offense)を提案する。
コアメカニズムであるDetox2Toxは、有害なリクエスト(エージェントが最初に拒否する)をデトキシフィケーションを通じて一見良質な要求に変換し、高度な視覚言語モデル(VLM)からの詳細な命令を保証し、実行直前にトキシフィケーションによって悪意のあるコンテンツを再導入する。
従来のジェイルブレイクとは異なり、SUDOはビルトインされた拒否フィードバックに基づいて攻撃を反復的に改善し、ロバストなポリシーフィルタに対してますます効果的になる。
50の現実世界のタスクと複数の最先端のVLMにまたがる広範なテストにおいて、SUDOは24%(改良なし)のスターク攻撃成功率を達成し、Claude Computer Useでは最大41%(反復改良)を達成した。
これらの脆弱性を明らかにし、現実世界のコンピューティング環境でそれらを活用することの容易さを示すことにより、堅牢でコンテキスト対応の安全ガードの必要性がすぐに浮き彫りになる。
WARNING: 有害または攻撃的なモデル出力を含む。
関連論文リスト
- In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [104.94706600050557]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。
ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。
我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-25T04:17:24Z) - Countering Autonomous Cyber Threats [40.00865970939829]
ファンデーションモデルは、サイバードメイン内で広く、特に二元的関心事を提示します。
近年の研究では、これらの先進的なモデルが攻撃的なサイバースペース操作を通知または独立に実行する可能性を示している。
この研究は、孤立したネットワークでマシンを妥協する能力について、最先端のいくつかのFMを評価し、そのようなAIによる攻撃を倒す防御メカニズムを調査する。
論文 参考訳(メタデータ) (2024-10-23T22:46:44Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Principles of Designing Robust Remote Face Anti-Spoofing Systems [60.05766968805833]
本稿では,デジタル攻撃に対する最先端の対面防止手法の脆弱性に光を当てる。
反偽造システムに遭遇する一般的な脅威を包括的に分類する。
論文 参考訳(メタデータ) (2024-06-06T02:05:35Z) - Creating Valid Adversarial Examples of Malware [4.817429789586127]
本稿では、強化学習アルゴリズムを用いて、敵のマルウェアの例を生成する。
PPOアルゴリズムを用いて,勾配型決定木(GBDT)モデルに対して53.84%の回避率を達成した。
機能保存型可搬性改造のランダムな適用は、主要なアンチウイルスエンジンを回避できる。
論文 参考訳(メタデータ) (2023-06-23T16:17:45Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z) - Adversarial EXEmples: A Survey and Experimental Evaluation of Practical
Attacks on Machine Learning for Windows Malware Detection [67.53296659361598]
EXEmplesは、比較的少ない入力バイトを摂動することで、機械学習に基づく検出をバイパスすることができる。
我々は、機械学習モデルに対する過去の攻撃を包含し、一般化するだけでなく、3つの新たな攻撃を含む統一フレームワークを開発する。
これらの攻撃はFull DOS、Extended、Shiftと呼ばれ、DOSヘッダをそれぞれ操作し、拡張し、第1セクションの内容を変更することで、敵のペイロードを注入する。
論文 参考訳(メタデータ) (2020-08-17T07:16:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。