論文の概要: Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models
- arxiv url: http://arxiv.org/abs/2501.01830v1
- Date: Fri, 03 Jan 2025 14:30:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:12:36.678464
- Title: Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models
- Title(参考訳): Auto-RT: 大規模言語モデルの再編成のための自動ジェイルブレイク戦略探索
- Authors: Yanjiang Liu, Shuhen Zhou, Yaojie Lu, Huijia Zhu, Weiqiang Wang, Hongyu Lin, Ben He, Xianpei Han, Le Sun,
- Abstract要約: Auto-RTは、複雑な攻撃戦略を探索し最適化する強化学習フレームワークである。
探索効率を大幅に改善し、攻撃戦略を自動的に最適化することにより、Auto-RTはボーダの脆弱性範囲を検出し、検出速度が速く、既存の方法と比較して16.63%高い成功率を達成する。
- 参考スコア(独自算出の注目度): 62.12822290276912
- License:
- Abstract: Automated red-teaming has become a crucial approach for uncovering vulnerabilities in large language models (LLMs). However, most existing methods focus on isolated safety flaws, limiting their ability to adapt to dynamic defenses and uncover complex vulnerabilities efficiently. To address this challenge, we propose Auto-RT, a reinforcement learning framework that automatically explores and optimizes complex attack strategies to effectively uncover security vulnerabilities through malicious queries. Specifically, we introduce two key mechanisms to reduce exploration complexity and improve strategy optimization: 1) Early-terminated Exploration, which accelerate exploration by focusing on high-potential attack strategies; and 2) Progressive Reward Tracking algorithm with intermediate downgrade models, which dynamically refine the search trajectory toward successful vulnerability exploitation. Extensive experiments across diverse LLMs demonstrate that, by significantly improving exploration efficiency and automatically optimizing attack strategies, Auto-RT detects a boarder range of vulnerabilities, achieving a faster detection speed and 16.63\% higher success rates compared to existing methods.
- Abstract(参考訳): 大規模な言語モデル(LLM)の脆弱性を明らかにする上で、自動化されたリピートが重要なアプローチとなっている。
しかし、既存のほとんどの手法は孤立した安全欠陥に焦点を当てており、動的防御に適応し、複雑な脆弱性を効率的に発見する能力を制限する。
この課題に対処するために、悪意のあるクエリを通じてセキュリティ脆弱性を効果的に発見するために、複雑な攻撃戦略を自動探索し最適化する強化学習フレームワークであるAuto-RTを提案する。
具体的には、探索の複雑さを減らし、戦略最適化を改善するための2つの重要なメカニズムを紹介します。
1)高力攻撃戦略に焦点をあてて探索を加速する早期探索
2) 中間ダウングレードモデルを用いたプログレッシブ・リワード追従アルゴリズムにより, 脆弱性の悪用を成功させるために探索軌道を動的に洗練する。
多様なLLMにわたる大規模な実験により、探索効率を大幅に改善し、攻撃戦略を自動最適化することにより、Auto-RTは、既存の手法と比較して、より高速な検出速度と16.63\%の成功率を達成する、ボーダの脆弱性範囲を検出することが示されている。
関連論文リスト
- In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [104.94706600050557]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。
ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。
我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-25T04:17:24Z) - Holistic Automated Red Teaming for Large Language Models through Top-Down Test Case Generation and Multi-turn Interaction [24.499874512829198]
本研究では, 対角的, きめ細かなリスク分類に基づいて, テストケースの多様性を拡大する自動紅茶造法を提案する。
提案手法は,新しい微調整戦略と強化学習技術を活用し,人的手法で多ターン探索を容易にする。
論文 参考訳(メタデータ) (2024-09-25T09:44:48Z) - PenHeal: A Two-Stage LLM Framework for Automated Pentesting and Optimal Remediation [18.432274815853116]
PenHealは2段階のLSMベースのフレームワークで、自律的に脆弱性を特定してセキュリティを確保する。
本稿では,LLMベースの2段階フレームワークであるPenHealについて紹介する。
論文 参考訳(メタデータ) (2024-07-25T05:42:14Z) - L-AutoDA: Leveraging Large Language Models for Automated Decision-based Adversarial Attacks [16.457528502745415]
L-AutoDAは、Large Language Models (LLM) の生成能力を活用して、敵攻撃の設計を自動化する新しいアプローチである。
L-AutoDAは、進化的なフレームワークでLLMと反復的に対話することにより、人間の努力を伴わずに、競合する攻撃アルゴリズムを効率的に設計する。
CIFAR-10データセットに対するL-AutoDAの有効性を実証し、成功率と計算効率の両面でベースライン法よりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2024-01-27T07:57:20Z) - A Multi-objective Memetic Algorithm for Auto Adversarial Attack
Optimization Design [1.9100854225243937]
良く設計された敵防衛戦略は、敵の例に対するディープラーニングモデルの堅牢性を改善することができる。
防御モデルを考えると、計算負担が少なく、ロバストな精度の低い効率的な敵攻撃を更に活用する必要がある。
本稿では,防衛モデルに対する準最適攻撃の自動探索を実現する自動対向攻撃最適化設計のための多目的メメティックアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-15T03:03:05Z) - Unified Automatic Control of Vehicular Systems with Reinforcement
Learning [64.63619662693068]
本稿では,車載マイクロシミュレーションの合理化手法について述べる。
最小限の手動設計で高性能な制御戦略を発見する。
この研究は、波動緩和、交通信号、ランプ計測に類似した多くの創発的挙動を明らかにしている。
論文 参考訳(メタデータ) (2022-07-30T16:23:45Z) - LAS-AT: Adversarial Training with Learnable Attack Strategy [82.88724890186094]
LAS-ATと呼ばれる「学習可能な攻撃戦略」は、モデル堅牢性を改善するための攻撃戦略を自動生成することを学ぶ。
当社のフレームワークは,強靭性向上のためのトレーニングにAEを使用するターゲットネットワークと,AE生成を制御するための攻撃戦略を生成する戦略ネットワークで構成されている。
論文 参考訳(メタデータ) (2022-03-13T10:21:26Z) - Behaviour-Diverse Automatic Penetration Testing: A Curiosity-Driven
Multi-Objective Deep Reinforcement Learning Approach [3.5071575478443435]
侵入テストは、実際のアクティブな敵をエミュレートすることで、ターゲットネットワークのセキュリティを評価する上で重要な役割を果たす。
深層強化学習(Deep Reinforcement Learning)は,浸透テストのプロセスを自動化するための,有望なソリューションだと考えられている。
我々は,チェビシェフ分解批判者に対して,侵入試験における異なる目的のバランスをとる多様な敵戦略を見出すことを提案する。
論文 参考訳(メタデータ) (2022-02-22T02:34:16Z) - Transferable Deep Reinforcement Learning Framework for Autonomous
Vehicles with Joint Radar-Data Communications [69.24726496448713]
本稿では,AVの最適決定を支援するために,マルコフ決定プロセス(MDP)に基づくインテリジェントな最適化フレームワークを提案する。
そこで我々は,近年の深層強化学習技術を活用した効果的な学習アルゴリズムを開発し,AVの最適方針を見出す。
提案手法は,従来の深部強化学習手法と比較して,AVによる障害物ミス検出確率を最大67%削減することを示す。
論文 参考訳(メタデータ) (2021-05-28T08:45:37Z) - Enhanced Adversarial Strategically-Timed Attacks against Deep
Reinforcement Learning [91.13113161754022]
本稿では,DRLに基づくナビゲーションシステムに対して,選択した時間フレーム上の物理ノイズパターンを妨害することにより,タイミングに基づく逆方向戦略を導入する。
実験結果から, 対向タイミング攻撃は性能低下を引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2020-02-20T21:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。