論文の概要: Optimizing AI Agent Attacks With Synthetic Data
- arxiv url: http://arxiv.org/abs/2511.02823v1
- Date: Tue, 04 Nov 2025 18:48:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.155302
- Title: Optimizing AI Agent Attacks With Synthetic Data
- Title(参考訳): 合成データによるAIエージェント攻撃の最適化
- Authors: Chloe Loughridge, Paul Colognese, Avery Griffin, Tyler Tracy, Jon Kutasov, Joe Benton,
- Abstract要約: SHADE-Arenaにおける攻撃ポリシーの最適化方法について述べる。
攻撃能力を5つの構成要素に分解する。
その結果,攻撃強度が大幅に向上し,足場を用いたベースライン0.87から0.41への安全性スコアが低下した。
- 参考スコア(独自算出の注目度): 2.0216113076368205
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: As AI deployments become more complex and high-stakes, it becomes increasingly important to be able to estimate their risk. AI control is one framework for doing so. However, good control evaluations require eliciting strong attack policies. This can be challenging in complex agentic environments where compute constraints leave us data-poor. In this work, we show how to optimize attack policies in SHADE-Arena, a dataset of diverse realistic control environments. We do this by decomposing attack capability into five constituent skills -- suspicion modeling, attack selection, plan synthesis, execution and subtlety -- and optimizing each component individually. To get around the constraint of limited data, we develop a probabilistic model of attack dynamics, optimize our attack hyperparameters using this simulation, and then show that the results transfer to SHADE-Arena. This results in a substantial improvement in attack strength, reducing safety score from a baseline of 0.87 to 0.41 using our scaffold.
- Abstract(参考訳): AIデプロイメントがより複雑で高リスクになるにつれて、リスクを見積もることの重要性が増している。
AIコントロールはそれを行うためのフレームワークのひとつです。
しかし、優れた制御評価は強力な攻撃ポリシーを導き出す必要がある。
複雑なエージェント環境では、計算の制約がデータ不足を残しているため、これは難しい場合があります。
本研究では,多様な現実的な制御環境のデータセットであるSHADE-Arenaにおける攻撃ポリシーの最適化方法について述べる。
攻撃能力を疑わしいモデリング、攻撃選択、計画合成、実行と微妙さの5つの構成要素に分解し、各コンポーネントを個別に最適化する。
限られたデータの制約を回避するために,攻撃力学の確率論的モデルを開発し,このシミュレーションを用いて攻撃ハイパーパラメータを最適化し,その結果がSHADE-Arenaに転送されることを示す。
その結果,攻撃強度が大幅に向上し,足場を用いたベースライン0.87から0.41への安全性スコアが低下した。
関連論文リスト
- Adaptive Defense against Harmful Fine-Tuning for Large Language Models via Bayesian Data Scheduler [67.24175911858312]
有害な微調整は、大規模な言語モデルのための微調整・アズ・ア・サービスに重大な安全性のリスクをもたらす。
Bayesian Data Scheduler (BDS) は、アタックシミュレーションを必要としない適応型チューニングステージ防衛戦略である。
BDSは、微調整データセットとアライメントデータセットに基づいて、各データポイントの安全属性の後方分布を学習する。
論文 参考訳(メタデータ) (2025-10-31T04:49:37Z) - EvA: Evolutionary Attacks on Graphs [50.13398588415462]
グラフ構造のわずかな堅牢性でさえも、グラフニューラルネットワーク(GNN)の精度を著しく低下させる可能性がある。
本稿では、離散最適化問題を直接解くために、進化的アルゴリズムの単純かつ効果的な拡張をいくつか導入する。
実験の結果、EvAは前回の攻撃に比べ平均で11%の精度低下を示した。
論文 参考訳(メタデータ) (2025-07-10T22:50:58Z) - MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:37:09Z) - No Query, No Access [50.18709429731724]
被害者のテキストのみを使用して動作する textbfVictim Data-based Adrial Attack (VDBA) を導入する。
被害者モデルへのアクセスを防止するため、公開されている事前トレーニングモデルとクラスタリングメソッドを備えたシャドウデータセットを作成します。
EmotionとSST5データセットの実験によると、VDBAは最先端の手法より優れており、ASRの改善は52.08%である。
論文 参考訳(メタデータ) (2025-05-12T06:19:59Z) - Robust Synthetic Data-Driven Detection of Living-Off-the-Land Reverse Shells [14.710331873072146]
LOTL(Living-off-the-land)技術は、セキュリティ運用において大きな課題となる。
セキュリティ情報およびイベント管理(SIEM)ソリューションとして,サイバー防衛システムのための堅牢な拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T13:49:23Z) - Low-Cost High-Power Membership Inference Attacks [15.240271537329534]
メンバーシップ推論攻撃は、特定のデータポイントがモデルのトレーニングに使用されたかどうかを検出することを目的としている。
我々は,計算オーバーヘッドの少ない,堅牢なメンバシップ推論攻撃を行うための新しい統計的試験を設計する。
RMIAは、機械学習における実用的かつ正確なデータプライバシーリスク評価の基礎を成している。
論文 参考訳(メタデータ) (2023-12-06T03:18:49Z) - Optimal Attack and Defense for Reinforcement Learning [11.36770403327493]
敵RLでは、外部攻撃者は、環境との相互作用を操作できる。
我々は、攻撃者が予想される報酬を最大化するステルス攻撃を設計する際の問題を示す。
被害者に対する最適な防衛方針は,Stackelbergゲームに対する解決策として計算できる,と我々は主張する。
論文 参考訳(メタデータ) (2023-11-30T21:21:47Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。