論文の概要: AutoRISE: Agent-Driven Strategy Evolution for Red-Teaming Large Language Models
- arxiv url: http://arxiv.org/abs/2604.22871v1
- Date: Thu, 23 Apr 2026 19:37:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.015938
- Title: AutoRISE: Agent-Driven Strategy Evolution for Red-Teaming Large Language Models
- Title(参考訳): AutoRISE: 大規模言語モデルの再編成のためのエージェント駆動戦略進化
- Authors: Tanmay Gautam, Alireza Bahramali, Sandeep Atluri,
- Abstract要約: 本稿では,個々のプロンプトではなく,実行可能攻撃プログラムを検索するAutoRISEを提案する。
各イテレーションにおいて、コーディングエージェントが戦略を編集し、固定評価ハーネスが結果の攻撃をスコアする。
AutoRISEはブラックボックス、推論のみの設定で動作し、微調整、ヒューマンアノテーション、GPU計算を必要としない。
- 参考スコア(独自算出の注目度): 2.75206475271089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated red-teaming methods for large language models typically optimize attack prompts within a fixed, human-designed strategy, leaving the attack strategy itself unchanged. We instead optimize the strategy. We propose AutoRISE, a method that searches over executable attack programs rather than individual prompts. At each iteration, a coding agent edits a strategy and a fixed evaluation harness scores the resulting attacks, returning both a scalar objective and per-example diagnostics that guide subsequent edits. This allows structural changes, including new attack components and altered control flow, that prompt-level methods do not directly express. We also release two benchmark suites developed on disjoint target sets and evaluate on 11 models from five families against seven established jailbreak datasets. Across held-out models, AutoRISE improves average attack success rate by 17.0 points over the strongest baseline, and improves attack success by up to 16 points on frontier targets with low baseline success rates. Ablations against parametric and strategy-library baselines suggest that these gains arise from unrestricted program search, particularly compositional techniques and control-flow edits. AutoRISE operates in a black-box, inference-only setting, requiring no fine-tuning, human annotation, or GPU compute.
- Abstract(参考訳): 大規模言語モデルのための自動赤チーム方式は、通常、固定された人間設計の戦略の中で攻撃プロンプトを最適化し、攻撃戦略自体が変わらないままにしておく。
代わりに戦略を最適化します。
本稿では,個々のプロンプトではなく,実行可能攻撃プログラムを検索するAutoRISEを提案する。
各イテレーションにおいて、コーディングエージェントが戦略を編集し、固定評価ハーネスが結果の攻撃をスコアし、その後の編集を導くスカラー目的とサンプルごとの診断の両方を返す。
これにより、新しいアタックコンポーネントや変更されたコントロールフローを含む構造的な変更が可能になり、プロンプトレベルのメソッドは直接表現しない。
また、不整合ターゲットセット上で開発された2つのベンチマークスイートもリリースし、確立された7つのjailbreakデータセットに対して、5つのファミリーから11のモデルで評価する。
ホールドアウトモデル全体では、AutoRISEは最強のベースラインで平均攻撃成功率を17.0ポイント改善し、ベースラインの成功率の低いフロンティア目標で最大16ポイント向上する。
パラメトリックおよび戦略ライブラリーベースラインに対するアブレーションは、これらの利得が制限されないプログラム探索、特に構成技術と制御フローの編集から生じることを示唆している。
AutoRISEはブラックボックス、推論のみの設定で動作し、微調整、ヒューマンアノテーション、GPU計算を必要としない。
関連論文リスト
- An Automated Framework for Strategy Discovery, Retrieval, and Evolution in LLM Jailbreak Attacks [9.715575204912167]
攻撃戦略を自律的に発見し,回収し,進化させる脱獄フレームワークを提案する。
ASTRAは平均アタック成功率(ASR)が82.7%に達し、ベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2025-11-04T08:24:22Z) - Genesis: Evolving Attack Strategies for LLM Web Agent Red-Teaming [45.95972813586392]
既存のレッドチーム方式は、主にオフラインでトレーニングされた手作業による攻撃戦略や静的モデルに依存している。
我々は,アタッカー,スコラー,ストラテジストの3つのモジュールからなる新しいエージェントフレームワークであるGenesisを提案する。
我々のフレームワークは、新しい戦略を発見し、既存の攻撃ベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-10-21T05:49:37Z) - AutoDAN-Reasoning: Enhancing Strategies Exploration based Jailbreak Attacks with Test-Time Scaling [54.47844626555395]
AutoDAN-Turboは生涯学習エージェントを使用して、攻撃戦略の豊富なライブラリをゼロから構築する。
非常に効果的ではあるが、そのテスト時間生成プロセスは戦略をサンプリングし、対応する1つの攻撃プロンプトを生成する。
本稿では,テスト時間スケーリングによるAutoDAN-Turboの攻撃性能の向上を提案する。
論文 参考訳(メタデータ) (2025-10-06T21:16:09Z) - Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks [63.803415430308114]
現在の大規模言語モデルは、マルチターンインタラクション設定における敵攻撃に対して脆弱である。
本研究では,木探索と統合したオンライン強化学習フレームワークであるDialTree-RPOを提案する。
提案手法は,従来の最先端手法と比較して,10のターゲットモデルに対して25.9%以上のASRを実現している。
論文 参考訳(メタデータ) (2025-10-02T17:57:05Z) - Transferable Attack for Semantic Segmentation [59.17710830038692]
敵が攻撃し、ソースモデルから生成された敵の例がターゲットモデルを攻撃するのに失敗するのを観察します。
本研究では, セマンティックセグメンテーションのためのアンサンブルアタックを提案する。
論文 参考訳(メタデータ) (2023-07-31T11:05:55Z) - LAS-AT: Adversarial Training with Learnable Attack Strategy [82.88724890186094]
LAS-ATと呼ばれる「学習可能な攻撃戦略」は、モデル堅牢性を改善するための攻撃戦略を自動生成することを学ぶ。
当社のフレームワークは,強靭性向上のためのトレーニングにAEを使用するターゲットネットワークと,AE生成を制御するための攻撃戦略を生成する戦略ネットワークで構成されている。
論文 参考訳(メタデータ) (2022-03-13T10:21:26Z) - Composite Adversarial Attacks [57.293211764569996]
敵対攻撃は、機械学習(ML)モデルを欺くための技術です。
本論文では,攻撃アルゴリズムの最適組み合わせを自動的に探索するための複合攻撃法(Composite Adrial Attack,CAA)を提案する。
CAAは11の防衛でトップ10の攻撃を破り、時間の経過は少ない。
論文 参考訳(メタデータ) (2020-12-10T03:21:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。