論文の概要: AutoDAN-Reasoning: Enhancing Strategies Exploration based Jailbreak Attacks with Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2510.05379v2
- Date: Wed, 08 Oct 2025 04:37:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 12:02:36.806937
- Title: AutoDAN-Reasoning: Enhancing Strategies Exploration based Jailbreak Attacks with Test-Time Scaling
- Title(参考訳): AutoDAN-Reasoning: テストタイムスケーリングによるジェイルブレイク攻撃による戦略の強化
- Authors: Xiaogeng Liu, Chaowei Xiao,
- Abstract要約: AutoDAN-Turboは生涯学習エージェントを使用して、攻撃戦略の豊富なライブラリをゼロから構築する。
非常に効果的ではあるが、そのテスト時間生成プロセスは戦略をサンプリングし、対応する1つの攻撃プロンプトを生成する。
本稿では,テスト時間スケーリングによるAutoDAN-Turboの攻撃性能の向上を提案する。
- 参考スコア(独自算出の注目度): 54.47844626555395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in jailbreaking large language models (LLMs), such as AutoDAN-Turbo, have demonstrated the power of automated strategy discovery. AutoDAN-Turbo employs a lifelong learning agent to build a rich library of attack strategies from scratch. While highly effective, its test-time generation process involves sampling a strategy and generating a single corresponding attack prompt, which may not fully exploit the potential of the learned strategy library. In this paper, we propose to further improve the attack performance of AutoDAN-Turbo through test-time scaling. We introduce two distinct scaling methods: Best-of-N and Beam Search. The Best-of-N method generates N candidate attack prompts from a sampled strategy and selects the most effective one based on a scorer model. The Beam Search method conducts a more exhaustive search by exploring combinations of strategies from the library to discover more potent and synergistic attack vectors. According to the experiments, the proposed methods significantly boost performance, with Beam Search increasing the attack success rate by up to 15.6 percentage points on Llama-3.1-70B-Instruct and achieving a nearly 60% relative improvement against the highly robust GPT-o4-mini compared to the vanilla method.
- Abstract(参考訳): AutoDAN-Turboのような大規模言語モデル(LLM)のジェイルブレイクの最近の進歩は、自動戦略発見のパワーを実証している。
AutoDAN-Turboは生涯学習エージェントを使用して、攻撃戦略の豊富なライブラリをゼロから構築する。
非常に効果的ではあるが、そのテスト時間生成プロセスは、戦略をサンプリングして、学習した戦略ライブラリの可能性を十分に活用しない単一のアタックプロンプトを生成する。
本稿では,テスト時間スケーリングによるAutoDAN-Turboの攻撃性能の向上を提案する。
我々はBest-of-NとBeam Searchの2つの異なるスケーリング手法を紹介した。
The Best-of-N method generated N candidate attack prompts from a sampled strategy and selects the most effective candidates based on a scorer model。
ビームサーチ法は,より強力でシナジスティックな攻撃ベクトルを発見するために,ライブラリからの戦略の組み合わせを探索することによって,より徹底的な探索を行う。
実験の結果,ビームサーチはLlama-3.1-70B-インストラクションの攻撃成功率を最大15.6ポイント向上し,バニラ法と比較して高いロバストなGPT-o4-miniに対して60%近く向上した。
関連論文リスト
- Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [54.22256089592864]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。
当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文 参考訳(メタデータ) (2025-04-01T13:13:43Z) - Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models [62.12822290276912]
Auto-RTは、複雑な攻撃戦略を探索し最適化する強化学習フレームワークである。
探索効率を大幅に改善し、攻撃戦略を自動的に最適化することにより、Auto-RTはボーダの脆弱性範囲を検出し、検出速度が速く、既存の方法と比較して16.63%高い成功率を達成する。
論文 参考訳(メタデータ) (2025-01-03T14:30:14Z) - Golden Ratio Search: A Low-Power Adversarial Attack for Deep Learning based Modulation Classification [8.187445866881637]
深層学習に基づく自動変調分類(AMC)のための最小パワー・ホワイトボックス対向攻撃を提案する。
提案手法の有効性を,既存の攻撃手法との比較により評価した。
実験の結果、提案した攻撃は強力で、最小限の電力を必要とし、より少ない時間で発生可能であることが示された。
論文 参考訳(メタデータ) (2024-09-17T17:17:54Z) - A Multi-objective Memetic Algorithm for Auto Adversarial Attack
Optimization Design [1.9100854225243937]
良く設計された敵防衛戦略は、敵の例に対するディープラーニングモデルの堅牢性を改善することができる。
防御モデルを考えると、計算負担が少なく、ロバストな精度の低い効率的な敵攻撃を更に活用する必要がある。
本稿では,防衛モデルに対する準最適攻撃の自動探索を実現する自動対向攻撃最適化設計のための多目的メメティックアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-15T03:03:05Z) - LAS-AT: Adversarial Training with Learnable Attack Strategy [82.88724890186094]
LAS-ATと呼ばれる「学習可能な攻撃戦略」は、モデル堅牢性を改善するための攻撃戦略を自動生成することを学ぶ。
当社のフレームワークは,強靭性向上のためのトレーニングにAEを使用するターゲットネットワークと,AE生成を制御するための攻撃戦略を生成する戦略ネットワークで構成されている。
論文 参考訳(メタデータ) (2022-03-13T10:21:26Z) - Stealthy and Efficient Adversarial Attacks against Deep Reinforcement
Learning [30.46580767540506]
本稿では,Deep Reinforcement Learning Agentを効果的かつ効果的に攻撃するための2つの新しい敵攻撃手法を紹介する。
敵は将来の環境状態とエージェントの行動を予測するモデルを構築し、それぞれの攻撃戦略の損傷を評価し、最適な攻撃方法を選択する。
敵は自動的にドメインに依存しないモデルを学び、エピソード中のエージェントを攻撃する重要な瞬間を発見する。
論文 参考訳(メタデータ) (2020-05-14T16:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。