論文の概要: Real AI Agents with Fake Memories: Fatal Context Manipulation Attacks on Web3 Agents
- arxiv url: http://arxiv.org/abs/2503.16248v3
- Date: Wed, 09 Jul 2025 01:38:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 15:30:52.173433
- Title: Real AI Agents with Fake Memories: Fatal Context Manipulation Attacks on Web3 Agents
- Title(参考訳): 偽の記憶を持つリアルAIエージェント:Web3エージェントの致命的なコンテキスト操作攻撃
- Authors: Atharv Singh Patlan, Peiyao Sheng, S. Ashwin Hebbar, Prateek Mittal, Pramod Viswanath,
- Abstract要約: 本稿では,ブロックチェーンベースの金融エコシステムにおけるAIエージェントの脆弱性を,現実のシナリオにおける敵対的脅威に曝露した場合に検討する。
保護されていないコンテキストサーフェスを利用する包括的攻撃ベクトルであるコンテキスト操作の概念を導入する。
ElizaOSを使用することで、不正なインジェクションをプロンプトや履歴レコードに注入することで、不正なアセット転送やプロトコル違反が引き起こされることを示す。
- 参考スコア(独自算出の注目度): 36.49717045080722
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: AI agents integrated with Web3 offer autonomy and openness but raise security concerns as they interact with financial protocols and immutable smart contracts. This paper investigates the vulnerabilities of AI agents within blockchain-based financial ecosystems when exposed to adversarial threats in real-world scenarios. We introduce the concept of context manipulation -- a comprehensive attack vector that exploits unprotected context surfaces, including input channels, memory modules, and external data feeds. It expands on traditional prompt injection and reveals a more stealthy and persistent threat: memory injection. Using ElizaOS, a representative decentralized AI agent framework for automated Web3 operations, we showcase that malicious injections into prompts or historical records can trigger unauthorized asset transfers and protocol violations which could be financially devastating in reality. To quantify these risks, we introduce CrAIBench, a Web3-focused benchmark covering 150+ realistic blockchain tasks. such as token transfers, trading, bridges, and cross-chain interactions, and 500+ attack test cases using context manipulation. Our evaluation results confirm that AI models are significantly more vulnerable to memory injection compared to prompt injection. Finally, we evaluate a comprehensive defense roadmap, finding that prompt-injection defenses and detectors only provide limited protection when stored context is corrupted, whereas fine-tuning-based defenses substantially reduce attack success rates while preserving performance on single-step tasks. These results underscore the urgent need for AI agents that are both secure and fiduciarily responsible in blockchain environments.
- Abstract(参考訳): Web3に統合されたAIエージェントは、自律性とオープン性を提供するが、金融プロトコルや不変スマートコントラクトとのインタラクションによってセキュリティ上の懸念が高まる。
本稿では,ブロックチェーンベースの金融エコシステムにおけるAIエージェントの脆弱性を,現実のシナリオにおける敵対的脅威に曝露した場合に検討する。
これは、入力チャネル、メモリモジュール、外部データフィードを含む、保護されていないコンテキスト表面を利用する包括的な攻撃ベクトルである。
従来のプロンプトインジェクションを拡張し、よりステルスで永続的な脅威であるメモリインジェクションを明らかにする。
自動Web3操作のための分散AIエージェントフレームワークであるElizaOSを使用することで、プロンプトや履歴レコードに悪意のあるインジェクションを注入することで、不正なアセット転送やプロトコル違反が引き起こされる可能性があることを示す。
これらのリスクを定量化するために、150以上の現実的なブロックチェーンタスクをカバーするWeb3中心のベンチマークであるCrAIBenchを紹介します。
例えば、トークン転送、トレーディング、ブリッジ、クロスチェーンインタラクション、コンテキスト操作を使った500以上のテストケースの攻撃などです。
評価の結果,AIモデルでは,インジェクションの迅速化よりも,メモリインジェクションに弱いことが確認された。
最後に, 総合的な防衛計画の評価を行い, 記憶環境が破損した場合, 即時噴射防御と検出器は限定的な保護しか提供しないのに対し, 微調整による防御は, シングルステップタスクの性能を維持しながら, 攻撃成功率を大幅に低下させることを示した。
これらの結果は、ブロックチェーン環境に安全かつ忠実に責任を負うAIエージェントの緊急ニーズを浮き彫りにしている。
関連論文リスト
- A Framework for Evaluating Emerging Cyberattack Capabilities of AI [11.595840449117052]
本研究は,(1)エンド・ツー・エンド・エンド・アタック・チェーンの検証,(2)AI脅威評価のギャップの同定,(3)目標とする緩和の優先順位付けを支援する,という制約に対処する新たな評価フレームワークを導入する。
我々は、GoogleのThreat Intelligence Groupがカタログ化したサイバーインシデントにAIが関与した12,000件以上の実世界の事例を分析し、7つの代表的なアタックチェーンのアーキタイプをキュレートした。
我々は、特定の攻撃段階にわたって攻撃能力を増幅するAIの可能性について報告し、防御の優先順位付けを推奨する。
論文 参考訳(メタデータ) (2025-03-14T23:05:02Z) - OCCULT: Evaluating Large Language Models for Offensive Cyber Operation Capabilities [0.0]
我々は、実世界の攻撃的サイバー操作の実現とスケーリングに向けたAIの進歩を評価するための新しいアプローチを実証する。
我々は、サイバーセキュリティの専門家が厳格かつ反復可能な測定に貢献できる軽量な運用評価フレームワークであるOCCULTについて詳述する。
私たちは、現実的なサイバー脅威をスケールするためにAIが使用されるリスクが、最近著しく進歩していることに気付きました。
論文 参考訳(メタデータ) (2025-02-18T19:33:14Z) - Position: A taxonomy for reporting and describing AI security incidents [57.98317583163334]
AIシステムのセキュリティインシデントを記述し報告するためには、具体的が必要である、と我々は主張する。
非AIセキュリティまたは汎用AI安全インシデントレポートの既存のフレームワークは、AIセキュリティの特定の特性をキャプチャするには不十分である。
論文 参考訳(メタデータ) (2024-12-19T13:50:26Z) - Poison Attacks and Adversarial Prompts Against an Informed University Virtual Assistant [3.0874677990361246]
大規模言語モデル(LLM)は特に敵の攻撃に対して脆弱である。
AIベースのシステムの急速な開発ペースは、意思決定において人間を支援するジェネレーティブAI(GenAI)の可能性によって推進されている。
脅威アクターは、セキュリティギャップ、貧弱な保護、限られたデータガバナンスを使用して、システムとそのデータへの不正アクセスを許可する攻撃を実行することができる。
論文 参考訳(メタデータ) (2024-11-03T05:34:38Z) - Countering Autonomous Cyber Threats [40.00865970939829]
ファンデーションモデルは、サイバードメイン内で広く、特に二元的関心事を提示します。
近年の研究では、これらの先進的なモデルが攻撃的なサイバースペース操作を通知または独立に実行する可能性を示している。
この研究は、孤立したネットワークでマシンを妥協する能力について、最先端のいくつかのFMを評価し、そのようなAIによる攻撃を倒す防御メカニズムを調査する。
論文 参考訳(メタデータ) (2024-10-23T22:46:44Z) - HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions [76.42274173122328]
本稿では,多様な複雑な社会的相互作用におけるAIエージェントの安全性を調べるフレームワークであるHAICOSYSTEMを提案する。
私たちは7つの領域(医療、金融、教育など)にわたる92のシナリオに基づいて1840のシミュレーションを実行します。
我々の実験は、最先端のLSMは、プロプライエタリかつオープンソースの両方で、50%以上のケースで安全リスクを示すことを示した。
論文 参考訳(メタデータ) (2024-09-24T19:47:21Z) - Interoperability and Explicable AI-based Zero-Day Attacks Detection Process in Smart Community [0.0]
本稿では,6Gモバイル通信,インターネット・オブ・エコノミクス(IoE),人工知能(AI),スマートコントラクトを組み込んだWPA3プロトコルベースのWiFi-8が連携して,既知の攻撃ベクトルを防止し,ゼロデイ攻撃に対する保護を実現する方法について説明する。
論文 参考訳(メタデータ) (2024-08-06T03:11:36Z) - AI Agents Under Threat: A Survey of Key Security Challenges and Future Pathways [10.16690494897609]
人工知能(AI)エージェント(英: Artificial Intelligence, AI)は、自律的にタスクを実行したり、事前に定義された目的やデータ入力に基づいて決定を行うソフトウェアエンティティである。
この調査は、AIエージェントが直面している新たなセキュリティ脅威を掘り下げ、これらを4つの重要な知識ギャップに分類する。
これらの脅威を体系的にレビューすることにより、この論文はAIエージェントの保護における進歩と既存の制限の両方を強調している。
論文 参考訳(メタデータ) (2024-06-04T01:22:31Z) - Artificial Intelligence as the New Hacker: Developing Agents for Offensive Security [0.0]
本稿では,人工知能(AI)の攻撃的サイバーセキュリティへの統合について検討する。
サイバー攻撃をシミュレートし実行するために設計された、自律的なAIエージェントであるReaperAIを開発している。
ReaperAIは、セキュリティ脆弱性を自律的に識別し、悪用し、分析する可能性を実証する。
論文 参考訳(メタデータ) (2024-05-09T18:15:12Z) - Designing an attack-defense game: how to increase robustness of
financial transaction models via a competition [69.08339915577206]
金融セクターにおける悪意ある攻撃のエスカレートリスクを考えると、機械学習モデルの敵戦略と堅牢な防御メカニズムを理解することが重要である。
本研究の目的は、逐次的な財務データを入力として使用するニューラルネットワークモデルに対する敵攻撃と防御の現状とダイナミクスを調査することである。
我々は、現代の金融取引データにおける問題の現実的かつ詳細な調査を可能にする競争を設計した。
参加者は直接対決するので、実生活に近い環境で攻撃や防御が検討される。
論文 参考訳(メタデータ) (2023-08-22T12:53:09Z) - Automating Privilege Escalation with Deep Reinforcement Learning [71.87228372303453]
本研究では,エージェントの訓練に深層強化学習を用いることで,悪意あるアクターの潜在的な脅威を実証する。
本稿では,最先端の強化学習アルゴリズムを用いて,局所的な特権エスカレーションを行うエージェントを提案する。
我々のエージェントは、実際の攻撃センサーデータを生成し、侵入検知システムの訓練と評価に利用できる。
論文 参考訳(メタデータ) (2021-10-04T12:20:46Z) - Certifiers Make Neural Networks Vulnerable to Availability Attacks [70.69104148250614]
私たちは初めて、逆転戦略が敵によって意図的に引き起こされる可能性があることを示します。
いくつかの入力や摂動のために自然に発生する障害に加えて、敵は故意にフォールバックを誘発するために訓練時間攻撃を使用することができる。
我々は2つの新しいアベイラビリティーアタックを設計し、これらの脅威の実用的妥当性を示す。
論文 参考訳(メタデータ) (2021-08-25T15:49:10Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z) - Adversarial vs behavioural-based defensive AI with joint, continual and
active learning: automated evaluation of robustness to deception, poisoning
and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。
本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文 参考訳(メタデータ) (2020-01-13T13:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。