論文の概要: Mind the Gap: Comparing Model- vs Agentic-Level Red Teaming with Action-Graph Observability on GPT-OSS-20B
- arxiv url: http://arxiv.org/abs/2509.17259v1
- Date: Sun, 21 Sep 2025 22:18:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.188105
- Title: Mind the Gap: Comparing Model- vs Agentic-Level Red Teaming with Action-Graph Observability on GPT-OSS-20B
- Title(参考訳): Mind the Gap: GPT-OSS-20Bにおけるモデルとエージェントレベルのレッドチームとアクショングラフの可観測性の比較
- Authors: Ilham Wicaksono, Zekun Wu, Rahul Patel, Theo King, Adriano Koshiyama, Philip Treleaven,
- Abstract要約: 本稿では,20ビリオンパラメータのオープンソースモデルであるGPT-OSS-20Bの比較レッドチーム化分析を行う。
評価の結果,モデルレベルとエージェントレベルの脆弱性プロファイルの根本的な違いが明らかになった。
エージェントレベルの反復攻撃は、モデルレベルで完全に失敗する目標を妥協することに成功した。
- 参考スコア(独自算出の注目度): 1.036334370262262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the industry increasingly adopts agentic AI systems, understanding their unique vulnerabilities becomes critical. Prior research suggests that security flaws at the model level do not fully capture the risks present in agentic deployments, where models interact with tools and external environments. This paper investigates this gap by conducting a comparative red teaming analysis of GPT-OSS-20B, a 20-billion parameter open-source model. Using our observability framework AgentSeer to deconstruct agentic systems into granular actions and components, we apply iterative red teaming attacks with harmful objectives from HarmBench at two distinct levels: the standalone model and the model operating within an agentic loop. Our evaluation reveals fundamental differences between model level and agentic level vulnerability profiles. Critically, we discover the existence of agentic-only vulnerabilities, attack vectors that emerge exclusively within agentic execution contexts while remaining inert against standalone models. Agentic level iterative attacks successfully compromise objectives that completely failed at the model level, with tool-calling contexts showing 24\% higher vulnerability than non-tool contexts. Conversely, certain model-specific exploits work exclusively at the model level and fail when transferred to agentic contexts, demonstrating that standalone model vulnerabilities do not always generalize to deployed systems.
- Abstract(参考訳): 業界がエージェントAIシステムを採用するにつれて、そのユニークな脆弱性を理解することが重要になる。
以前の研究では、モデルレベルでのセキュリティ欠陥は、モデルがツールや外部環境と相互作用するエージェントデプロイメントのリスクを完全に捉えていないことが示唆されていた。
本稿では,20ビリオンパラメータのオープンソースモデルであるGPT-OSS-20Bの比較レッドチーム化分析を行うことにより,このギャップを解明する。
エージェントシステムを粒度のアクションやコンポーネントに分解するために、観測フレームワークのAgentSeerを使って、HarmBenchから有害な目的を持つ反復的なレッド・チーム・アタックを2つの異なるレベルで適用します。
評価の結果,モデルレベルとエージェントレベルの脆弱性プロファイルの根本的な違いが明らかになった。
決定的に、エージェントのみの脆弱性、エージェント実行コンテキスト内でのみ出現する攻撃ベクトルの存在を発見しながら、スタンドアロンモデルに対して不活性なままにしておく。
エージェントレベルの反復攻撃は、ツールコールコンテキストが非ツールコンテキストよりも24\%高い脆弱性を示すことによって、モデルレベルで完全に失敗する目標を妥協することに成功した。
逆に、特定のモデル固有のエクスプロイトはモデルレベルでのみ動作し、エージェントのコンテキストに移行すると失敗する。
関連論文リスト
- AgentCompass: Towards Reliable Evaluation of Agentic Workflows in Production [4.031479494871582]
本稿では,エージェントパイプラインのデプロイ後監視と推論に特化して設計された,最初の評価フレームワークであるAgentを紹介する。
Agentは、主要なメトリクスに関する最先端の結果を達成すると同時に、人間のアノテーションで見逃された重要な問題を明らかにする。
論文 参考訳(メタデータ) (2025-09-18T05:59:04Z) - Mind the Gap: Evaluating Model- and Agentic-Level Vulnerabilities in LLMs with Action Graphs [0.6087817758152709]
本稿では,エージェント実行を粒度のアクションとコンポーネントグラフに分解する可観測性に基づく評価フレームワークであるAgenSeerを紹介する。
モデルレベルとエージェントレベルの脆弱性プロファイルの根本的な違いを示す。
エージェントレベルの評価は、従来の評価には見えないエージェント固有のリスクを明らかにする。
論文 参考訳(メタデータ) (2025-09-05T04:36:17Z) - Towards Unifying Quantitative Security Benchmarking for Multi Agent Systems [0.0]
AIシステムの進化 自律エージェントが協力し、情報を共有し、プロトコルを開発することでタスクを委譲するマルチエージェントアーキテクチャをますます展開する。
そのようなリスクの1つはカスケードリスクである。あるエージェントの侵入はシステムを通してカスケードし、エージェント間の信頼を利用して他人を妥協させる。
ACI攻撃では、あるエージェントに悪意のあるインプットまたはツールエクスプロイトが注入され、そのアウトプットを信頼するエージェント間でカスケードの妥協とダウンストリーム効果が増幅される。
論文 参考訳(メタデータ) (2025-07-23T13:51:28Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [104.94706600050557]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。
ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。
我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-25T04:17:24Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Towards Scalable and Robust Model Versioning [30.249607205048125]
ディープラーニングモデルへのアクセスを目的とした悪意ある侵入が増えている。
異なる攻撃特性を持つモデルの複数バージョンを生成する方法を示す。
モデル学習データにパラメータ化された隠れ分布を組み込むことでこれを実現できることを示す。
論文 参考訳(メタデータ) (2024-01-17T19:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。