論文の概要: Mind the Gap: Evaluating Model- and Agentic-Level Vulnerabilities in LLMs with Action Graphs
- arxiv url: http://arxiv.org/abs/2509.04802v1
- Date: Fri, 05 Sep 2025 04:36:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.478642
- Title: Mind the Gap: Evaluating Model- and Agentic-Level Vulnerabilities in LLMs with Action Graphs
- Title(参考訳): Mind the Gap:アクショングラフを用いたLLMにおけるモデルとエージェントレベル脆弱性の評価
- Authors: Ilham Wicaksono, Zekun Wu, Theo King, Adriano Koshiyama, Philip Treleaven,
- Abstract要約: 本稿では,エージェント実行を粒度のアクションとコンポーネントグラフに分解する可観測性に基づく評価フレームワークであるAgenSeerを紹介する。
モデルレベルとエージェントレベルの脆弱性プロファイルの根本的な違いを示す。
エージェントレベルの評価は、従来の評価には見えないエージェント固有のリスクを明らかにする。
- 参考スコア(独自算出の注目度): 0.6087817758152709
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As large language models transition to agentic systems, current safety evaluation frameworks face critical gaps in assessing deployment-specific risks. We introduce AgentSeer, an observability-based evaluation framework that decomposes agentic executions into granular action and component graphs, enabling systematic agentic-situational assessment. Through cross-model validation on GPT-OSS-20B and Gemini-2.0-flash using HarmBench single turn and iterative refinement attacks, we demonstrate fundamental differences between model-level and agentic-level vulnerability profiles. Model-level evaluation reveals baseline differences: GPT-OSS-20B (39.47% ASR) versus Gemini-2.0-flash (50.00% ASR), with both models showing susceptibility to social engineering while maintaining logic-based attack resistance. However, agentic-level assessment exposes agent-specific risks invisible to traditional evaluation. We discover "agentic-only" vulnerabilities that emerge exclusively in agentic contexts, with tool-calling showing 24-60% higher ASR across both models. Cross-model analysis reveals universal agentic patterns, agent transfer operations as highest-risk tools, semantic rather than syntactic vulnerability mechanisms, and context-dependent attack effectiveness, alongside model-specific security profiles in absolute ASR levels and optimal injection strategies. Direct attack transfer from model-level to agentic contexts shows degraded performance (GPT-OSS-20B: 57% human injection ASR; Gemini-2.0-flash: 28%), while context-aware iterative attacks successfully compromise objectives that failed at model-level, confirming systematic evaluation gaps. These findings establish the urgent need for agentic-situation evaluation paradigms, with AgentSeer providing the standardized methodology and empirical validation.
- Abstract(参考訳): 大規模言語モデルがエージェントシステムに移行するにつれ、現在の安全性評価フレームワークは、デプロイメント固有のリスクを評価する上で、重大なギャップに直面します。
本稿では,エージェント実行を粒度のアクションとコンポーネントグラフに分解する可観測性に基づく評価フレームワークであるAgenSeerを紹介する。
GPT-OSS-20B と Gemini-2.0-flash の相互モデル検証を HarmBench 単ターンと反復改良攻撃を用いて行い,モデルレベルとエージェントレベルの脆弱性プロファイルの根本的な違いを示す。
GPT-OSS-20B (39.47% ASR) と Gemini-2.0-flash (50.00% ASR) の両モデルとも、論理ベースの攻撃抵抗を維持しながら社会工学への感受性を示す。
しかし、エージェントレベルの評価は、従来の評価には見えないエージェント固有のリスクを露呈する。
エージェントコンテキストにのみ現れる"エージェントのみ"脆弱性を発見し、ツールコールによって両方のモデルで24-60%高いASRを示す。
クロスモデル解析では、汎用エージェントパターン、最高リスクツールとしてのエージェント転送操作、構文的脆弱性メカニズムよりもセマンティックなセマンティクス、および絶対ASRレベルのモデル固有のセキュリティプロファイルと最適なインジェクション戦略とともに、コンテキスト依存アタックの有効性が明らかにされている。
モデルレベルからエージェントコンテキストへのダイレクトアタック転送は、性能低下(GPT-OSS-20B: 57% 人注入 ASR; Gemini-2.0-flash: 28%)を示し、コンテキスト認識反復攻撃は、モデルレベルで失敗する目標を妥協し、体系的な評価ギャップを確認する。
これらの知見は,AgentSeerが標準化された方法論と実証的検証を提供するとともに,エージェント選択評価パラダイムの緊急の必要性を証明している。
関連論文リスト
- Towards Unifying Quantitative Security Benchmarking for Multi Agent Systems [0.0]
AIシステムの進化 自律エージェントが協力し、情報を共有し、プロトコルを開発することでタスクを委譲するマルチエージェントアーキテクチャをますます展開する。
そのようなリスクの1つはカスケードリスクである。あるエージェントの侵入はシステムを通してカスケードし、エージェント間の信頼を利用して他人を妥協させる。
ACI攻撃では、あるエージェントに悪意のあるインプットまたはツールエクスプロイトが注入され、そのアウトプットを信頼するエージェント間でカスケードの妥協とダウンストリーム効果が増幅される。
論文 参考訳(メタデータ) (2025-07-23T13:51:28Z) - Explainer-guided Targeted Adversarial Attacks against Binary Code Similarity Detection Models [12.524811181751577]
我々は,BCSDモデルに対する敵攻撃に対する新たな最適化を提案する。
特に,攻撃目標は,モデル予測を特定の範囲に制限することである。
我々の攻撃は、モデル決定境界の解釈において、ブラックボックス、モデルに依存しない説明器の優れた能力を活用する。
論文 参考訳(メタデータ) (2025-06-05T08:29:19Z) - LLM-Based User Simulation for Low-Knowledge Shilling Attacks on Recommender Systems [28.559223475725137]
我々は,Large Language Model(LLM)ベースのエージェントを利用して,低知識かつ高インパクトなシリング攻撃を行う新しいフレームワークであるAgent4SRを紹介する。
Agent4SRは、対向的なインタラクションを編成し、アイテムを選択し、評価を割り当て、レビューを作成し、行動の妥当性を維持しながら、現実的なユーザ動作をシミュレートする。
以上の結果から,レコメンデーションシステムにおける防衛強化の必要性を浮き彫りにして,LSMを駆使したエージェントによる新たな緊急脅威の出現が示唆された。
論文 参考訳(メタデータ) (2025-05-18T04:40:34Z) - Adversarial Training for Defense Against Label Poisoning Attacks [53.893792844055106]
ラベル中毒攻撃は機械学習モデルに重大なリスクをもたらす。
本稿では,これらの脅威に対処するために,サポートベクトルマシン(SVM)に基づく新たな対角的防御戦略を提案する。
提案手法は, 様々なモデルアーキテクチャに対応し, カーネルSVMを用いた予測勾配降下アルゴリズムを用いて, 対向学習を行う。
論文 参考訳(メタデータ) (2025-02-24T13:03:19Z) - A Framework for Evaluating Vision-Language Model Safety: Building Trust in AI for Public Sector Applications [0.0]
本稿では,視覚言語モデル(VLM)における敵対的リスクを定量化する新しい枠組みを提案する。
我々は,ガウス,ソルト・アンド・ペッパー,均一雑音下でのモデル性能を解析し,誤分類しきい値を特定し,脆弱な領域を目立たせる複合ノイズパッチやサリエンシパターンを導出する。
本稿では,ランダムノイズと敵攻撃の影響を組み合わせた新しい脆弱性スコアを提案し,モデルロバスト性を評価するための総合的指標を提供する。
論文 参考訳(メタデータ) (2025-02-22T21:33:26Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z) - Robustness Testing for Multi-Agent Reinforcement Learning: State
Perturbations on Critical Agents [2.5204420653245245]
MARL(Multi-Agent Reinforcement Learning)は、スマート交通や無人航空機など、多くの分野に広く応用されている。
本研究は,MARLのための新しいロバストネステストフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-09T02:26:28Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。