論文の概要: Real AI Agents with Fake Memories: Fatal Context Manipulation Attacks on Web3 Agents
- arxiv url: http://arxiv.org/abs/2503.16248v2
- Date: Wed, 30 Apr 2025 20:40:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.340055
- Title: Real AI Agents with Fake Memories: Fatal Context Manipulation Attacks on Web3 Agents
- Title(参考訳): 偽の記憶を持つリアルAIエージェント:Web3エージェントの致命的なコンテキスト操作攻撃
- Authors: Atharv Singh Patlan, Peiyao Sheng, S. Ashwin Hebbar, Prateek Mittal, Pramod Viswanath,
- Abstract要約: 本稿では,ブロックチェーンベースの金融エコシステムにおけるAIエージェントの脆弱性を,現実のシナリオにおける敵対的脅威に曝露した場合に検討する。
我々は、保護されていないコンテキスト表面を利用する包括的攻撃ベクトルであるコンテキスト操作の概念を導入する。
これらの脆弱性を定量化するために、コンテキスト操作攻撃に対するAIエージェントの堅牢性を評価するWeb3ドメイン固有のベンチマークであるCrAIBenchを設計する。
- 参考スコア(独自算出の注目度): 36.49717045080722
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The integration of AI agents with Web3 ecosystems harnesses their complementary potential for autonomy and openness yet also introduces underexplored security risks, as these agents dynamically interact with financial protocols and immutable smart contracts. This paper investigates the vulnerabilities of AI agents within blockchain-based financial ecosystems when exposed to adversarial threats in real-world scenarios. We introduce the concept of context manipulation, a comprehensive attack vector that exploits unprotected context surfaces, including input channels, memory modules, and external data feeds. Through empirical analysis of ElizaOS, a decentralized AI agent framework for automated Web3 operations, we demonstrate how adversaries can manipulate context by injecting malicious instructions into prompts or historical interaction records, leading to unintended asset transfers and protocol violations which could be financially devastating. To quantify these vulnerabilities, we design CrAIBench, a Web3 domain-specific benchmark that evaluates the robustness of AI agents against context manipulation attacks across 150+ realistic blockchain tasks, including token transfers, trading, bridges and cross-chain interactions and 500+ attack test cases using context manipulation. We systematically assess attack and defense strategies, analyzing factors like the influence of security prompts, reasoning models, and the effectiveness of alignment techniques. Our findings show that prompt-based defenses are insufficient when adversaries corrupt stored context, achieving significant attack success rates despite these defenses. Fine-tuning-based defenses offer a more robust alternative, substantially reducing attack success rates while preserving utility on single-step tasks. This research highlights the urgent need to develop AI agents that are both secure and fiduciarily responsible.
- Abstract(参考訳): AIエージェントとWeb3エコシステムの統合は、自律性とオープン性に対する補完的な可能性を活用するが、これらのエージェントが金融プロトコルや不変のスマートコントラクトと動的に対話するため、探索されたセキュリティリスクも伴う。
本稿では,ブロックチェーンベースの金融エコシステムにおけるAIエージェントの脆弱性を,現実のシナリオにおける敵対的脅威に曝露した場合に検討する。
我々は、入力チャネル、メモリモジュール、外部データフィードを含む、保護されていないコンテキスト表面を利用する包括的攻撃ベクトルであるコンテキスト操作の概念を導入する。
自動Web3操作のための分散AIエージェントフレームワークであるElizaOSの実証分析を通じて、悪意ある命令をプロンプトや歴史的なインタラクションレコードに注入することで、敵がコンテキストを操作できることを示す。
これらの脆弱性を定量化するために、私たちはCrAIBenchを設計しました。これは、トークン転送、トレーディング、ブリッジ、クロスチェーンインタラクションを含む150以上の現実的なブロックチェーンタスクに対する、コンテキスト操作によるAIエージェントの堅牢性を評価する、Web3ドメイン固有のベンチマークです。
攻撃・防衛戦略を体系的に評価し,セキュリティプロンプトの影響,推論モデル,アライメント手法の有効性などの要因を分析した。
以上の結果から, 敵が記憶環境を汚す場合, 即時防御は不十分であり, 攻撃成功率も高いことが示唆された。
微調整ベースの防御は、より堅牢な代替手段を提供し、攻撃の成功率を大幅に削減し、シングルステップタスクで実用性を維持する。
この研究は、安全かつ架空の責任を持つAIエージェントを開発する緊急の必要性を強調している。
関連論文リスト
- A Framework for Evaluating Emerging Cyberattack Capabilities of AI [11.595840449117052]
本研究は,(1)エンド・ツー・エンド・エンド・アタック・チェーンの検証,(2)AI脅威評価のギャップの同定,(3)目標とする緩和の優先順位付けを支援する,という制約に対処する新たな評価フレームワークを導入する。
我々は、GoogleのThreat Intelligence Groupがカタログ化したサイバーインシデントにAIが関与した12,000件以上の実世界の事例を分析し、7つの代表的なアタックチェーンのアーキタイプをキュレートした。
我々は、特定の攻撃段階にわたって攻撃能力を増幅するAIの可能性について報告し、防御の優先順位付けを推奨する。
論文 参考訳(メタデータ) (2025-03-14T23:05:02Z) - OCCULT: Evaluating Large Language Models for Offensive Cyber Operation Capabilities [0.0]
我々は、実世界の攻撃的サイバー操作の実現とスケーリングに向けたAIの進歩を評価するための新しいアプローチを実証する。
我々は、サイバーセキュリティの専門家が厳格かつ反復可能な測定に貢献できる軽量な運用評価フレームワークであるOCCULTについて詳述する。
私たちは、現実的なサイバー脅威をスケールするためにAIが使用されるリスクが、最近著しく進歩していることに気付きました。
論文 参考訳(メタデータ) (2025-02-18T19:33:14Z) - Position: A taxonomy for reporting and describing AI security incidents [57.98317583163334]
AIシステムのセキュリティインシデントを記述し報告するためには、具体的が必要である、と我々は主張する。
非AIセキュリティまたは汎用AI安全インシデントレポートの既存のフレームワークは、AIセキュリティの特定の特性をキャプチャするには不十分である。
論文 参考訳(メタデータ) (2024-12-19T13:50:26Z) - Poison Attacks and Adversarial Prompts Against an Informed University Virtual Assistant [3.0874677990361246]
大規模言語モデル(LLM)は特に敵の攻撃に対して脆弱である。
AIベースのシステムの急速な開発ペースは、意思決定において人間を支援するジェネレーティブAI(GenAI)の可能性によって推進されている。
脅威アクターは、セキュリティギャップ、貧弱な保護、限られたデータガバナンスを使用して、システムとそのデータへの不正アクセスを許可する攻撃を実行することができる。
論文 参考訳(メタデータ) (2024-11-03T05:34:38Z) - Countering Autonomous Cyber Threats [40.00865970939829]
ファンデーションモデルは、サイバードメイン内で広く、特に二元的関心事を提示します。
近年の研究では、これらの先進的なモデルが攻撃的なサイバースペース操作を通知または独立に実行する可能性を示している。
この研究は、孤立したネットワークでマシンを妥協する能力について、最先端のいくつかのFMを評価し、そのようなAIによる攻撃を倒す防御メカニズムを調査する。
論文 参考訳(メタデータ) (2024-10-23T22:46:44Z) - HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions [76.42274173122328]
本稿では,多様な複雑な社会的相互作用におけるAIエージェントの安全性を調べるフレームワークであるHAICOSYSTEMを提案する。
私たちは7つの領域(医療、金融、教育など)にわたる92のシナリオに基づいて1840のシミュレーションを実行します。
我々の実験は、最先端のLSMは、プロプライエタリかつオープンソースの両方で、50%以上のケースで安全リスクを示すことを示した。
論文 参考訳(メタデータ) (2024-09-24T19:47:21Z) - Interoperability and Explicable AI-based Zero-Day Attacks Detection Process in Smart Community [0.0]
本稿では,6Gモバイル通信,インターネット・オブ・エコノミクス(IoE),人工知能(AI),スマートコントラクトを組み込んだWPA3プロトコルベースのWiFi-8が連携して,既知の攻撃ベクトルを防止し,ゼロデイ攻撃に対する保護を実現する方法について説明する。
論文 参考訳(メタデータ) (2024-08-06T03:11:36Z) - AI Agents Under Threat: A Survey of Key Security Challenges and Future Pathways [10.16690494897609]
人工知能(AI)エージェント(英: Artificial Intelligence, AI)は、自律的にタスクを実行したり、事前に定義された目的やデータ入力に基づいて決定を行うソフトウェアエンティティである。
この調査は、AIエージェントが直面している新たなセキュリティ脅威を掘り下げ、これらを4つの重要な知識ギャップに分類する。
これらの脅威を体系的にレビューすることにより、この論文はAIエージェントの保護における進歩と既存の制限の両方を強調している。
論文 参考訳(メタデータ) (2024-06-04T01:22:31Z) - Artificial Intelligence as the New Hacker: Developing Agents for Offensive Security [0.0]
本稿では,人工知能(AI)の攻撃的サイバーセキュリティへの統合について検討する。
サイバー攻撃をシミュレートし実行するために設計された、自律的なAIエージェントであるReaperAIを開発している。
ReaperAIは、セキュリティ脆弱性を自律的に識別し、悪用し、分析する可能性を実証する。
論文 参考訳(メタデータ) (2024-05-09T18:15:12Z) - Designing an attack-defense game: how to increase robustness of
financial transaction models via a competition [69.08339915577206]
金融セクターにおける悪意ある攻撃のエスカレートリスクを考えると、機械学習モデルの敵戦略と堅牢な防御メカニズムを理解することが重要である。
本研究の目的は、逐次的な財務データを入力として使用するニューラルネットワークモデルに対する敵攻撃と防御の現状とダイナミクスを調査することである。
我々は、現代の金融取引データにおける問題の現実的かつ詳細な調査を可能にする競争を設計した。
参加者は直接対決するので、実生活に近い環境で攻撃や防御が検討される。
論文 参考訳(メタデータ) (2023-08-22T12:53:09Z) - Automating Privilege Escalation with Deep Reinforcement Learning [71.87228372303453]
本研究では,エージェントの訓練に深層強化学習を用いることで,悪意あるアクターの潜在的な脅威を実証する。
本稿では,最先端の強化学習アルゴリズムを用いて,局所的な特権エスカレーションを行うエージェントを提案する。
我々のエージェントは、実際の攻撃センサーデータを生成し、侵入検知システムの訓練と評価に利用できる。
論文 参考訳(メタデータ) (2021-10-04T12:20:46Z) - Certifiers Make Neural Networks Vulnerable to Availability Attacks [70.69104148250614]
私たちは初めて、逆転戦略が敵によって意図的に引き起こされる可能性があることを示します。
いくつかの入力や摂動のために自然に発生する障害に加えて、敵は故意にフォールバックを誘発するために訓練時間攻撃を使用することができる。
我々は2つの新しいアベイラビリティーアタックを設計し、これらの脅威の実用的妥当性を示す。
論文 参考訳(メタデータ) (2021-08-25T15:49:10Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z) - Adversarial vs behavioural-based defensive AI with joint, continual and
active learning: automated evaluation of robustness to deception, poisoning
and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。
本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文 参考訳(メタデータ) (2020-01-13T13:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。