Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs
Abstractの概要
本論文は、Claude Code上に構築された自律研究パイプラインであるClaudiniを提案している。Claudiniは、言語モデルに対するホワイトボックス離散最適化攻撃を自律的に設計・実装・評価する。30以上の既存攻撃実装を出発点として、固定されたFLOPsおよびサフィックス長の予算制約の下で反復し、新たなオプティマイザ変種を生成して、ホールドアウトターゲットおよび一部の設定ではホールドアウトモデル上で評価する。GPT-OSS-Safeguard-20Bに対するジェイルブレイク設定では、発見された手法はホールドアウトのClearHarm CBRNクエリにおいて最大40%の攻撃成功率(ASR)を達成し、既存ベースラインの10%以下を大幅に上回った。また、別のランダムターゲット最適化設定では、発見されたアルゴリズムがMeta-SecAlignへのプロンプトインジェクションに転移し、Meta-SecAlign-70Bで100%のASRを達成し、文献ベースラインおよびOptunaチューニング変種の両方を上回った。
新規性
主な貢献は、手動で攻撃を設計したり固定手法のハイパーパラメータのみを調整するのではなく、自律的な自動研究ループを用いて攻撃アルゴリズムそのものを発見・改良する点にある。また、無関係なモデル(Qwen-2.5-7B、Llama-2-7B、Gemma-7B)上の合成ランダムトークン目的関数で発見された手法が、異なるモデルファミリー(Llama-3.1ベースのMeta-SecAlign)へのプロンプトインジェクションに転移することを実証しているが、著者らは改善の大部分が根本的に新しい攻撃原理ではなく、既存のアイデアの再結合とエスケープ機構の追加によるものであると指摘している。
成果
Claudiniが設計した手法は、ホールドアウトのClearHarm CBRNクエリにおいてGPT-OSS-Safeguard-20Bに対し最大40%のASRを達成し(30以上の全ベースラインは10%以下)、プロンプトインジェクション設定ではMeta-SecAlign-70Bで100%、Meta-SecAlign-8Bで86%のASRを達成した(70Bにおける最良ベースラインは56%)。ランダムターゲット最適化タスクでは、Claude考案手法は最良のOptunaチューニングベースライン構成と比較して10倍低い損失を達成し、その改善はホールドアウトターゲットおよび自動研究実行中に使用されなかった2つのホールドアウトモデルにも汎化した。
論文の注目点
- Claudiniは、Claude Codeエージェントが過去の攻撃コードと結果を読み取り、新たなオプティマイザ変種を提案し、GPU評価を実行し、固定FLOPsおよびサフィックス長予算の下でホールドアウトターゲットおよびモデル上で手法をランク付けする自律パイプラインである。
- GPT-OSS-Safeguard-20Bに対する単一モデルジェイルブレイク設定において、Claude設計手法は自動研究実行中に明確な段階的改善を示し、ホールドアウトCBRNクエリにおいて最大40%のASRを達成した(既存ベースラインは全て10%以下)。
- ランダムトークン強制タスクで発見された攻撃は、発見時に使用されなかったモデルファミリーであるMeta-SecAlignへのプロンプトインジェクションに転移し、Meta-SecAlign-70Bで100%、Meta-SecAlign-8Bで86%のASRを達成し、既存攻撃およびOptunaチューニングベースラインの両方を大幅に上回った。