論文の概要: Large Empirical Case Study: Go-Explore adapted for AI Red Team Testing
- arxiv url: http://arxiv.org/abs/2601.00042v2
- Date: Tue, 06 Jan 2026 16:35:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 13:14:29.362719
- Title: Large Empirical Case Study: Go-Explore adapted for AI Red Team Testing
- Title(参考訳): 大規模な実証ケーススタディ: AI Red Team Testingに適応したGo-Explore
- Authors: Manish Bhatt, Adrian Wood, Idan Habler, Ammar Al-Kahfah,
- Abstract要約: Go-Explore を用いて GPT-4o-mini の評価を行った。
乱数列のばらつきがアルゴリズムのパラメータを支配し,結果の8倍の拡散をもたらすことがわかった。
報酬形成はパフォーマンスを損なうことが分かり、94%のランニングで探索が崩壊したり、18件の偽陽性を発生させたりした。
- 参考スコア(独自算出の注目度): 0.5896098673075335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Production LLM agents with tool-using capabilities require security testing despite their safety training. We adapt Go-Explore to evaluate GPT-4o-mini across 28 experimental runs spanning six research questions. We find that random-seed variance dominates algorithmic parameters, yielding an 8x spread in outcomes; single-seed comparisons are unreliable, while multi-seed averaging materially reduces variance in our setup. Reward shaping consistently harms performance, causing exploration collapse in 94% of runs or producing 18 false positives with zero verified attacks. In our environment, simple state signatures outperform complex ones. For comprehensive security testing, ensembles provide attack-type diversity, whereas single agents optimize coverage within a given attack type. Overall, these results suggest that seed variance and targeted domain knowledge can outweigh algorithmic sophistication when testing safety-trained models.
- Abstract(参考訳): ツール使用能力を持つLLMエージェントの生産には、安全性のトレーニングにもかかわらず、セキュリティテストが必要である。
Go-Explore を用いて GPT-4o-mini の評価を行った。
単系統比較は信頼性が低いが,複数系統平均化はセットアップのばらつきを著しく低減する。
リワードシェーピングは一貫して性能を損なうため、ランニングの94%で探査が崩壊したり、18個の偽陽性を発生させる。
私たちの環境では、単純な状態シグネチャは複雑なシグネチャより優れています。
包括的なセキュリティテストでは、アンサンブルは攻撃タイプの多様性を提供するが、シングルエージェントは特定の攻撃タイプのカバレッジを最適化する。
これらの結果から, 種子の分散と対象ドメイン知識は, 安全性を訓練したモデルをテストする際に, アルゴリズムの高度化を上回ることが示唆された。
関連論文リスト
- DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Benign Samples Matter! Fine-tuning On Outlier Benign Samples Severely Breaks Safety [24.51481840826035]
安全劣化に最も寄与する良性データセット内のサンプルを分析し,同定する。
微調整のためのアウトリアの検出と抽出を行うセルフInf-Nを提案する。
以上の結果から,既存の緩和戦略のほとんどが,この攻撃に対して防御に失敗していることが示唆された。
論文 参考訳(メタデータ) (2025-05-11T04:59:20Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Adversarial Attacks Neutralization via Data Set Randomization [3.655021726150369]
ディープラーニングモデルに対する敵対的な攻撃は、信頼性とセキュリティに深刻な脅威をもたらす。
本稿では,超空間射影に根ざした新しい防御機構を提案する。
提案手法は,敵対的攻撃に対するディープラーニングモデルの堅牢性を高めていることを示す。
論文 参考訳(メタデータ) (2023-06-21T10:17:55Z) - FLIP: A Provable Defense Framework for Backdoor Mitigation in Federated
Learning [66.56240101249803]
我々は,クライアントの強固化がグローバルモデル(および悪意のあるクライアント)に与える影響について検討する。
本稿では, 逆エンジニアリングによる防御手法を提案するとともに, 堅牢性を保証して, 改良を実現できることを示す。
競合する8つのSOTA防御法について, 単発および連続のFLバックドア攻撃に対して, 提案手法の実証的優位性を示した。
論文 参考訳(メタデータ) (2022-10-23T22:24:03Z) - Versatile Weight Attack via Flipping Limited Bits [68.45224286690932]
本研究では,展開段階におけるモデルパラメータを変更する新たな攻撃パラダイムについて検討する。
有効性とステルスネスの目標を考慮し、ビットフリップに基づく重み攻撃を行うための一般的な定式化を提供する。
SSA(Single sample attack)とTSA(Singr sample attack)の2例を報告した。
論文 参考訳(メタデータ) (2022-07-25T03:24:58Z) - Adversarial Vulnerability of Randomized Ensembles [12.082239973914326]
ランダム化アンサンブルは、通常のATモデルよりも、知覚不能な逆方向の摂動に対して脆弱であることを示す。
本稿では,適応PGDが実現しなかった場合においても,ランダムアンサンブルを再現できる理論的・効率的な攻撃アルゴリズム(ARC)を提案する。
論文 参考訳(メタデータ) (2022-06-14T10:37:58Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。