論文の概要: Breaking Agent Backbones: Evaluating the Security of Backbone LLMs in AI Agents
- arxiv url: http://arxiv.org/abs/2510.22620v1
- Date: Sun, 26 Oct 2025 10:36:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.299452
- Title: Breaking Agent Backbones: Evaluating the Security of Backbone LLMs in AI Agents
- Title(参考訳): ブローキングエージェントバックボーン:AIエージェントのバックボーンLDMのセキュリティ評価
- Authors: Julia Bazinska, Max Mathys, Francesco Casucci, Mateo Rojas-Carulla, Xander Davies, Alexandra Souly, Niklas Pfister,
- Abstract要約: 大規模言語モデル(LLM)を利用したAIエージェントが大規模にデプロイされているが、バックボーンLLMの選択がエージェントのセキュリティに与える影響について、体系的な理解が欠如している。
脅威スナップショット: 脆弱性が現れるエージェントの実行フロー内の特定の状態を分離するフレームワーク。
194331のユニークなクラウドソース攻撃に基づくセキュリティベンチマークである$operatornameb3$ベンチマークを構築するために,このフレームワークを適用した。
- 参考スコア(独自算出の注目度): 36.2255033141489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI agents powered by large language models (LLMs) are being deployed at scale, yet we lack a systematic understanding of how the choice of backbone LLM affects agent security. The non-deterministic sequential nature of AI agents complicates security modeling, while the integration of traditional software with AI components entangles novel LLM vulnerabilities with conventional security risks. Existing frameworks only partially address these challenges as they either capture specific vulnerabilities only or require modeling of complete agents. To address these limitations, we introduce threat snapshots: a framework that isolates specific states in an agent's execution flow where LLM vulnerabilities manifest, enabling the systematic identification and categorization of security risks that propagate from the LLM to the agent level. We apply this framework to construct the $\operatorname{b}^3$ benchmark, a security benchmark based on 194331 unique crowdsourced adversarial attacks. We then evaluate 31 popular LLMs with it, revealing, among other insights, that enhanced reasoning capabilities improve security, while model size does not correlate with security. We release our benchmark, dataset, and evaluation code to facilitate widespread adoption by LLM providers and practitioners, offering guidance for agent developers and incentivizing model developers to prioritize backbone security improvements.
- Abstract(参考訳): 大規模言語モデル(LLM)を利用したAIエージェントが大規模にデプロイされているが、バックボーンLLMの選択がエージェントのセキュリティに与える影響について、体系的な理解が欠如している。
AIエージェントの非決定論的シーケンシャルな性質は、セキュリティモデリングを複雑にし、従来のソフトウェアとAIコンポーネントの統合は、新しいLLM脆弱性と従来のセキュリティリスクを絡み合わせる。
既存のフレームワークは、特定の脆弱性をキャプチャするか、完全なエージェントのモデリングを必要とするため、これらの課題に部分的に対処するのみである。
LLMの脆弱性が現れるエージェントの実行フロー内の特定の状態を分離し、LLMからエージェントレベルに伝播するセキュリティリスクの体系的識別と分類を可能にするフレームワークである。
このフレームワークを用いて、194331のユニークなクラウドソース対逆攻撃に基づくセキュリティベンチマークである$\operatorname{b}^3$ベンチマークを構築する。
次に、31の人気のあるLCMを評価し、推理能力の強化がセキュリティを改善する一方で、モデルサイズはセキュリティと相関しないことを示した。
LLMプロバイダや実践者による広範な採用を促進するため、ベンチマーク、データセット、評価コードをリリースし、エージェント開発者のためのガイダンスを提供し、モデル開発者がバックボーンセキュリティの改善を優先するインセンティブを与えています。
関連論文リスト
- LLMZ+: Contextual Prompt Whitelist Principles for Agentic LLMs [6.009944398165616]
エージェントAIは、潜在的な攻撃者にとって価値のあるターゲットである。
DMZ(Demilitarized Zone)に属する典型的なソフトウェアアプリケーションとは異なり、エージェントLLMはAIの非決定的振る舞いに依存している。
この特徴は、運用セキュリティと情報セキュリティの両方に重大なセキュリティリスクをもたらす。
論文 参考訳(メタデータ) (2025-09-23T02:30:14Z) - The Dark Side of LLMs: Agent-based Attacks for Complete Computer Takeover [0.18472148461613155]
大規模言語モデル(LLM)エージェントとマルチエージェントシステムは、前例のないセキュリティ脆弱性を導入している。
本稿では,自律エージェント内の推論エンジンとして使用されるLDMの安全性を総合的に評価する。
我々は、このような買収を組織するために、異なる攻撃面と信頼境界をどのように活用できるかに焦点を当てる。
論文 参考訳(メタデータ) (2025-07-09T13:54:58Z) - ATAG: AI-Agent Application Threat Assessment with Attack Graphs [23.757154032523093]
本稿では,Attack Graphs (ATAG) を用いたAIエージェントアプリケーションThreatアセスメントを提案する。
ATAGは、AIエージェントアプリケーションに関連するセキュリティリスクを体系的に分析するために設計された、新しいフレームワークである。
マルチエージェントアプリケーションにおけるAIエージェント脅威の積極的な識別と緩和を容易にする。
論文 参考訳(メタデータ) (2025-06-03T13:25:40Z) - LLM Agents Should Employ Security Principles [60.03651084139836]
本稿では,大規模言語モデル(LLM)エージェントを大規模に展開する際には,情報セキュリティの確立した設計原則を採用するべきであることを論じる。
AgentSandboxは、エージェントのライフサイクル全体を通して保護を提供するために、これらのセキュリティ原則を組み込んだ概念的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-29T21:39:08Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。
本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。
我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文 参考訳(メタデータ) (2025-02-12T17:19:36Z) - Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。
本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文 参考訳(メタデータ) (2024-12-05T18:38:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。