論文の概要: AttackPilot: Autonomous Inference Attacks Against ML Services With LLM-Based Agents
- arxiv url: http://arxiv.org/abs/2511.19536v1
- Date: Mon, 24 Nov 2025 10:14:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.080513
- Title: AttackPilot: Autonomous Inference Attacks Against ML Services With LLM-Based Agents
- Title(参考訳): AttackPilot: LLMベースのエージェントによるMLサービスに対する自動推論攻撃
- Authors: Yixin Wu, Rui Wen, Chi Cui, Michael Backes, Yang Zhang,
- Abstract要約: 推論攻撃は広く研究され、MLサービスの体系的なリスク評価を提供する。
先進的な大規模言語モデルの出現は、推論攻撃の専門家として自律的なエージェントを開発するという、有望だがほとんど未発見の機会を示している。
本研究では,人間の介入なしに独立して推論攻撃を行う自律エージェントであるAttackPilotを提案する。
- 参考スコア(独自算出の注目度): 20.145414070649007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference attacks have been widely studied and offer a systematic risk assessment of ML services; however, their implementation and the attack parameters for optimal estimation are challenging for non-experts. The emergence of advanced large language models presents a promising yet largely unexplored opportunity to develop autonomous agents as inference attack experts, helping address this challenge. In this paper, we propose AttackPilot, an autonomous agent capable of independently conducting inference attacks without human intervention. We evaluate it on 20 target services. The evaluation shows that our agent, using GPT-4o, achieves a 100.0% task completion rate and near-expert attack performance, with an average token cost of only $0.627 per run. The agent can also be powered by many other representative LLMs and can adaptively optimize its strategy under service constraints. We further perform trace analysis, demonstrating that design choices, such as a multi-agent framework and task-specific action spaces, effectively mitigate errors such as bad plans, inability to follow instructions, task context loss, and hallucinations. We anticipate that such agents could empower non-expert ML service providers, auditors, or regulators to systematically assess the risks of ML services without requiring deep domain expertise.
- Abstract(参考訳): 推論攻撃はMLサービスのシステム的リスク評価として広く研究されているが、その実装と最適推定のための攻撃パラメータは、非専門家にとって困難である。
先進的な大規模言語モデルの出現は、自律エージェントを推論攻撃の専門家として開発する有望だが、ほとんど未発見の機会を示し、この課題に対処するのに役立つ。
本稿では,人間の介入なしに独立して推論攻撃を行う自律エージェントであるAttackPilotを提案する。
20のターゲットサービスで評価する。
評価の結果,GPT-4oを用いたエージェントは,平均トークンコストが0.627ドルであり,100.0%のタスク完了率とほぼ熟練した攻撃性能が得られることがわかった。
エージェントは、他の多くの代表LSMによっても利用でき、サービス制約の下でその戦略を適応的に最適化することができる。
さらにトレース分析を行い、マルチエージェントフレームワークやタスク固有のアクション空間などの設計選択が、悪い計画、指示に従うことができないこと、タスクコンテキストの喪失、幻覚といったエラーを効果的に軽減することを示した。
このようなエージェントが、専門家でないMLサービスプロバイダ、監査官、規制当局に、深いドメインの専門知識を必要とせずに、MLサービスのリスクを体系的に評価する権限を期待する。
関連論文リスト
- Toward Quantitative Modeling of Cybersecurity Risks Due to AI Misuse [50.87630846876635]
我々は9つの詳細なサイバーリスクモデルを開発する。
各モデルはMITRE ATT&CKフレームワークを使用して攻撃をステップに分解する。
個々の見積もりはモンテカルロシミュレーションによって集約される。
論文 参考訳(メタデータ) (2025-12-09T17:54:17Z) - Are Your Agents Upward Deceivers? [73.1073084327614]
大規模言語モデル(LLM)ベースのエージェントは、ユーザのためにタスクを実行する自律的な従属者として、ますます使われています。
これは、人間の組織の個人がどのように上官に嘘をついて良いイメージを作り出したり、罰を免れるかのような、詐欺にも関与するかどうかという問題を提起する。
本研究では,環境制約に直面するエージェントが障害を隠蔽し,報告なしに要求されない動作を行う現象であるエージェント上行錯誤を観察・定義する。
論文 参考訳(メタデータ) (2025-12-04T14:47:05Z) - ASTRA: Agentic Steerability and Risk Assessment Framework [3.9756746779772834]
大規模言語モデル(LLM)を活用したAIエージェントのセキュア化は、今日のAIセキュリティにおける最も重要な課題の1つだ。
ASTRA は LLM の有効性を評価するための第一種フレームワークである。
論文 参考訳(メタデータ) (2025-11-22T16:32:29Z) - Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。
Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文 参考訳(メタデータ) (2025-07-28T05:13:04Z) - Demonstrations of Integrity Attacks in Multi-Agent Systems [7.640342064257848]
マルチエージェントシステム(Multi-Agent Systems、MAS)は、システムの中核機能を破壊しずに自己利益を提供する悪意のあるエージェントに対して脆弱である可能性がある。
この研究は、悪意のあるエージェントが微妙なプロンプト操作を使用してバイアスMAS操作を行ない、様々な利益を得る、完全性攻撃を探索する。
論文 参考訳(メタデータ) (2025-06-05T02:44:49Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification [35.16099878559559]
大規模言語モデル(LLM)は大きな発展を遂げ、現実世界のアプリケーションにデプロイされている。
エージェントが繰り返しまたは無関係なアクションを実行することを誤解させることで誤動作を引き起こす新しいタイプの攻撃を導入する。
実験の結果、これらの攻撃は複数のシナリオで80%以上の障害率を誘導できることがわかった。
論文 参考訳(メタデータ) (2024-07-30T14:35:31Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。