論文の概要: Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks
- arxiv url: http://arxiv.org/abs/2510.02286v1
- Date: Thu, 02 Oct 2025 17:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.278553
- Title: Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks
- Title(参考訳): 木に基づく対話強化政策最適化によるレッドチームアタック
- Authors: Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan Roth,
- Abstract要約: 現在の大規模言語モデルは、マルチターンインタラクション設定における敵攻撃に対して脆弱である。
本研究では,木探索と統合したオンライン強化学習フレームワークであるDialTree-RPOを提案する。
提案手法は,従来の最先端手法と比較して,10のターゲットモデルに対して25.9%以上のASRを実現している。
- 参考スコア(独自算出の注目度): 63.803415430308114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent rapid progress in AI safety, current large language models remain vulnerable to adversarial attacks in multi-turn interaction settings, where attackers strategically adapt their prompts across conversation turns and pose a more critical yet realistic challenge. Existing approaches that discover safety vulnerabilities either rely on manual red-teaming with human experts or employ automated methods using pre-defined templates and human-curated attack data, with most focusing on single-turn attacks. However, these methods did not explore the vast space of possible multi-turn attacks, failing to consider novel attack trajectories that emerge from complex dialogue dynamics and strategic conversation planning. This gap is particularly critical given recent findings that LLMs exhibit significantly higher vulnerability to multi-turn attacks compared to single-turn attacks. We propose DialTree-RPO, an on-policy reinforcement learning framework integrated with tree search that autonomously discovers diverse multi-turn attack strategies by treating the dialogue as a sequential decision-making problem, enabling systematic exploration without manually curated data. Through extensive experiments, our approach not only achieves more than 25.9% higher ASR across 10 target models compared to previous state-of-the-art approaches, but also effectively uncovers new attack strategies by learning optimal dialogue policies that maximize attack success across multiple turns.
- Abstract(参考訳): 近年のAI安全性の急激な進歩にもかかわらず、現在の大規模言語モデルは、マルチターンインタラクション設定における敵の攻撃に対して脆弱なままであり、攻撃者は会話のターンを越えてプロンプトを戦略的に適応し、より批判的かつ現実的な課題を生じさせる。
安全性の脆弱性を検出する既存のアプローチは、人間の専門家による手動のリピートに依存するか、事前に定義されたテンプレートと人為的な攻撃データを使った自動メソッドを採用するかのいずれかで、ほとんどがシングルターン攻撃に重点を置いている。
しかし、これらの手法は、複雑な対話力学や戦略的会話計画から生じる新たな攻撃経路を考慮せず、多ターン攻撃の可能性の広大な空間を探索しなかった。
LLMがシングルターン攻撃に比べて、マルチターン攻撃に対する脆弱性が著しく高いという最近の発見を考えると、このギャップは特に重要である。
本研究では,木探索と統合されたオンライン強化学習フレームワークであるDialTree-RPOを提案する。
大規模な実験を通じて、我々のアプローチは従来の最先端のアプローチと比較して10のターゲットモデルに対して25.9%以上のASRを達成するだけでなく、複数回にわたる攻撃成功を最大化する最適な対話ポリシーを学習することで、新たな攻撃戦略を効果的に発見する。
関連論文リスト
- DOPA: Stealthy and Generalizable Backdoor Attacks from a Single Client under Challenging Federated Constraints [2.139012072214621]
フェデレーテッド・ラーニング(FL)は、プライバシー保護のための協調トレーニングにますます採用されているが、その分散した性質は、バックドア攻撃の影響を受けやすい。
しかし、既存の攻撃方法は、しばしば理想化された仮定に依存し、現実の制約の下で有効に保たない。
異種ローカルトレーニングのダイナミクスをシミュレートし,多種多様な最適化トラジェクトリ間のコンセンサスを求める新しいフレームワークであるDOPAを提案する。
論文 参考訳(メタデータ) (2025-08-20T08:39:12Z) - Searching for Privacy Risks in LLM Agents via Simulation [61.229785851581504]
本稿では,プライバシクリティカルなエージェントインタラクションのシミュレーションを通じて,攻撃と防御戦略の改善を交互に行う検索ベースのフレームワークを提案する。
攻撃戦略は、直接の要求から、不正行為や同意偽造といった高度な戦術へとエスカレートする。
発見された攻撃と防御は、さまざまなシナリオやバックボーンモデルにまたがって伝達され、プライバシーに配慮したエージェントを構築するための強力な実用性を示している。
論文 参考訳(メタデータ) (2025-08-14T17:49:09Z) - Strategize Globally, Adapt Locally: A Multi-Turn Red Teaming Agent with Dual-Level Learning [39.931442440365444]
AlgNameは、補完的な学習次元を通じて高度な人間の攻撃者をエミュレートする、新しい赤チームエージェントである。
AlgNameは、エージェントが新しいジェイルブレイク戦術を特定し、ゴールベースの戦術選択フレームワークを開発し、選択した戦術の迅速な定式化を洗練できるようにする。
JailbreakBenchに関する実証的な評価は、我々のフレームワークの優れた性能を示し、GPT-3.5-Turbo と Llama-3.1-70B に対する攻撃成功率の90%以上を、5つの会話ターンで達成した。
論文 参考訳(メタデータ) (2025-04-02T01:06:19Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models [62.12822290276912]
Auto-RTは、複雑な攻撃戦略を探索し最適化する強化学習フレームワークである。
探索効率を大幅に改善し、攻撃戦略を自動的に最適化することにより、Auto-RTはボーダの脆弱性範囲を検出し、検出速度が速く、既存の方法と比較して16.63%高い成功率を達成する。
論文 参考訳(メタデータ) (2025-01-03T14:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。