論文の概要: Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs
- arxiv url: http://arxiv.org/abs/2603.24511v1
- Date: Wed, 25 Mar 2026 16:50:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.394608
- Title: Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs
- Title(参考訳): Claudini: LLMの攻撃アルゴリズムを自動検索で発見
- Authors: Alexander Panfilov, Peter Romov, Igor Shilov, Yves-Alexandre de Montjoye, Jonas Geiping, Maksym Andriushchenko,
- Abstract要約: 我々は,Claude Codeをベースとしたemphautoresearchスタイルのパイプライン citepkarpathy2026autoresearch が,新しいホワイトボックス対逆攻撃を発見できることを示した。
textbfsignantは、jailbreakで既存のすべての(30以上のメソッド)を著しく上回り、インジェクション評価を促します。
- 参考スコア(独自算出の注目度): 75.62489398666644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents like Claude Code can not only write code but also be used for autonomous AI research and engineering \citep{rank2026posttrainbench, novikov2025alphaevolve}. We show that an \emph{autoresearch}-style pipeline \citep{karpathy2026autoresearch} powered by Claude Code discovers novel white-box adversarial attack \textit{algorithms} that \textbf{significantly outperform all existing (30+) methods} in jailbreaking and prompt injection evaluations. Starting from existing attack implementations, such as GCG~\citep{zou2023universal}, the agent iterates to produce new algorithms achieving up to 40\% attack success rate on CBRN queries against GPT-OSS-Safeguard-20B, compared to $\leq$10\% for existing algorithms (\Cref{fig:teaser}, left). The discovered algorithms generalize: attacks optimized on surrogate models transfer directly to held-out models, achieving \textbf{100\% ASR against Meta-SecAlign-70B} \citep{chen2025secalign} versus 56\% for the best baseline (\Cref{fig:teaser}, middle). Extending the findings of~\cite{carlini2025autoadvexbench}, our results are an early demonstration that incremental safety and security research can be automated using LLM agents. White-box adversarial red-teaming is particularly well-suited for this: existing methods provide strong starting points, and the optimization objective yields dense, quantitative feedback. We release all discovered attacks alongside baseline implementations and evaluation code at https://github.com/romovpa/claudini.
- Abstract(参考訳): Claude CodeのようなLLMエージェントは、コードを書くだけでなく、自律的なAI研究やエンジニアリングのためにも使うことができる。
Claude Code を利用した \emph{autoresearch} スタイルのパイプライン \citep{karpathy2026autoresearch} が,新しいホワイトボックス対逆攻撃 \textit{algorithms} を発見した。
GCG~\citep{zou2023universal}のような既存のアタック実装から始めて、エージェントは、既存のアルゴリズム(\Cref{fig:teaser}, left)の$\leq$10\%に対して、CBRNクエリに対する最大40%の攻撃成功率を達成する新しいアルゴリズムを生成する。
探索されたアルゴリズムは、サロゲートモデルに最適化されたアタックが直接ホールトアウトモデルに転送され、Meta-SecAlign-70B} \citep{chen2025secalign}に対して \textbf{100\% ASR、ベストベースラインでは56\%となる(\Cref{fig:teaser}, middle)。
以上の結果から,LSMエージェントを用いて,段階的安全性とセキュリティ研究を自動化できることが示唆された。
既存の手法は強力なスタートポイントを提供し、最適化の目的は密で定量的なフィードバックをもたらす。
ベースライン実装と評価コードとともに発見されたすべての攻撃を、https://github.com/romovpa/claudini.comでリリースします。
関連論文リスト
- Overcoming the Retrieval Barrier: Indirect Prompt Injection in the Wild for LLM Systems [7.15710884787427]
大規模言語モデル(LLM)は、外部コーパスから情報を取得することにますます依存している。
これにより新たな攻撃面が生成される:間接的プロンプトインジェクション(IPI)
本稿では,自然クエリと現実的な外部コーパスに基づいて,エンド・ツー・エンド IPI エクスプロイトを初めて提示する。
論文 参考訳(メタデータ) (2026-01-11T21:33:59Z) - Jailbreak Attack Initializations as Extractors of Compliance Directions [5.910850302054065]
安全に配慮したLSMは、コンプライアンスまたは拒絶のプロンプトに応答する。
近年の研究では、他のプロンプトからの自己伝達による攻撃の初期化が、その性能を著しく向上させることが示されている。
コンプライアンスの方向性に沿って、未確認のプロンプトをプロジェクションすることを目的としたフレームワークであるCRIを提案する。
論文 参考訳(メタデータ) (2025-02-13T20:25:40Z) - Enhancing Adversarial Attacks through Chain of Thought [0.0]
勾配に基づく敵対的攻撃は、特に整列した大言語モデル(LLM)に対して有効である
本稿では,CoTプロンプトとgreedy coordinate gradient (GCG)技術を統合することで,敵攻撃の普遍性を高めることを提案する。
論文 参考訳(メタデータ) (2024-10-29T06:54:00Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - Practical Evaluation of Adversarial Robustness via Adaptive Auto Attack [96.50202709922698]
実用的な評価手法は、便利な(パラメータフリー)、効率的な(イテレーションの少ない)、信頼性を持つべきである。
本稿では,パラメータフリーな適応オートアタック (A$3$) 評価手法を提案する。
論文 参考訳(メタデータ) (2022-03-10T04:53:54Z) - Sparse and Imperceptible Adversarial Attack via a Homotopy Algorithm [93.80082636284922]
少数の敵対的攻撃は、数ピクセルを摂動するだけでディープ・ネットワーク(DNN)を騙すことができる。
近年の取り組みは、他の等級のl_infty摂動と組み合わせている。
本稿では,空間的・神経的摂動に対処するホモトピーアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-10T20:11:36Z) - Online Adversarial Attacks [57.448101834579624]
我々は、実世界のユースケースで見られる2つの重要な要素を強調し、オンライン敵攻撃問題を定式化する。
まず、オンライン脅威モデルの決定論的変種を厳格に分析する。
このアルゴリズムは、現在の最良の単一しきい値アルゴリズムよりも、$k=2$の競争率を確実に向上させる。
論文 参考訳(メタデータ) (2021-03-02T20:36:04Z) - Composite Adversarial Attacks [57.293211764569996]
敵対攻撃は、機械学習(ML)モデルを欺くための技術です。
本論文では,攻撃アルゴリズムの最適組み合わせを自動的に探索するための複合攻撃法(Composite Adrial Attack,CAA)を提案する。
CAAは11の防衛でトップ10の攻撃を破り、時間の経過は少ない。
論文 参考訳(メタデータ) (2020-12-10T03:21:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。