論文の概要: TrailBlazer: History-Guided Reinforcement Learning for Black-Box LLM Jailbreaking
- arxiv url: http://arxiv.org/abs/2602.06440v1
- Date: Fri, 06 Feb 2026 07:11:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.271866
- Title: TrailBlazer: History-Guided Reinforcement Learning for Black-Box LLM Jailbreaking
- Title(参考訳): TrailBlazer: Black-Box LLM Jailbreakingの履歴ガイドによる強化学習
- Authors: Sung-Hoon Yoon, Ruizhi Qian, Minda Zhao, Weiyue Li, Mengyu Wang,
- Abstract要約: 本稿では,RLをベースとしたjailbreakフレームワークを提案する。このフレームワークは,脆弱性信号を事前の手順から分析し,重み付けし,今後の意思決定を導く。
本手法は,クエリ効率を大幅に向上しつつ,最先端のjailbreak性能を実現する。
- 参考スコア(独自算出の注目度): 10.964111261280413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have become integral to many domains, making their safety a critical priority. Prior jailbreaking research has explored diverse approaches, including prompt optimization, automated red teaming, obfuscation, and reinforcement learning (RL) based methods. However, most existing techniques fail to effectively leverage vulnerabilities revealed in earlier interaction turns, resulting in inefficient and unstable attacks. Since jailbreaking involves sequential interactions in which each response influences future actions, reinforcement learning provides a natural framework for this problem. Motivated by this, we propose a history-aware RL-based jailbreak framework that analyzes and reweights vulnerability signals from prior steps to guide future decisions. We show that incorporating historical information alone improves jailbreak success rates. Building on this insight, we introduce an attention-based reweighting mechanism that highlights critical vulnerabilities within the interaction history, enabling more efficient exploration with fewer queries. Extensive experiments on AdvBench and HarmBench demonstrate that our method achieves state-of-the-art jailbreak performance while significantly improving query efficiency. These results underscore the importance of historical vulnerability signals in reinforcement learning-driven jailbreak strategies and offer a principled pathway for advancing adversarial research on LLM safeguards.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、安全性が最優先事項となっている。
ジェイルブレイク以前の研究では、迅速な最適化、自動化されたレッドチーム、難読化、強化学習(RL)に基づく手法など、さまざまなアプローチが検討されてきた。
しかし、既存のほとんどのテクニックは、以前のインタラクションターンで明らかになった脆弱性を効果的に活用することができず、非効率で不安定な攻撃をもたらす。
ジェイルブレイクは、各応答が将来の行動に影響を与えるシーケンシャルな相互作用を伴うため、強化学習はこの問題の自然な枠組みを提供する。
そこで本研究では,過去を意識したRLベースのjailbreakフレームワークを提案する。
歴史的情報のみを取り入れることで、脱獄の成功率が向上することを示す。
この洞察に基づいて、インタラクション履歴の重大な脆弱性を強調し、より少ないクエリでより効率的な探索を可能にする、注目ベースのリウェイト機構を導入します。
AdvBench と HarmBench の大規模な実験により,我々の手法は,クエリ効率を大幅に向上しつつ,最先端のjailbreak 性能を実現することを示した。
これらの結果は、強化学習駆動型ジェイルブレイク戦略における歴史的脆弱性信号の重要性を強調し、LDMの保護に関する敵研究を進めるための原則的経路を提供する。
関連論文リスト
- A Causal Perspective for Enhancing Jailbreak Attack and Defense [29.669194815878768]
大規模言語モデルとデータ駆動因果探索を融合したフレームワークを提案する。
7つの言語モデルにまたがる35kのジェイルブレイク試行からなる包括的データセットを導入する。
分析の結果、"Positive Character"や"Number of Task Steps"といった特定の特徴が、jailbreakの直接的な因果的ドライバとして機能していることが判明した。
論文 参考訳(メタデータ) (2026-01-31T15:20:13Z) - Why does weak-OOD help? A Further Step Towards Understanding Jailbreaking VLMs [62.03547713936256]
大型ビジョンランゲージモデル(VLM)は、ジェイルブレイク攻撃の影響を受けやすい。
本稿では,OODをベースとしたVLMジェイルブレイク手法の理解を深める。
論文 参考訳(メタデータ) (2025-11-11T15:46:44Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - GRAF: Multi-turn Jailbreaking via Global Refinement and Active Fabrication [55.63412213263305]
大規模言語モデルは、悪意のある目的のために誤用される可能性があるため、顕著な安全性のリスクを生じさせる。
そこで本研究では,各インタラクションにおける攻撃経路をグローバルに洗練する,新しいマルチターンジェイルブレーキング手法を提案する。
さらに、モデル応答を積極的に作成し、安全性に関する警告を抑えることにより、有害な出力を誘発する可能性を高める。
論文 参考訳(メタデータ) (2025-06-22T03:15:05Z) - Adversarial Reasoning at Jailbreaking Time [49.70772424278124]
大規模言語モデル(LLM)は、より有能で広く普及している。
テスト時間計算の標準化, 測定, スケーリングの最近の進歩は, ハードタスクにおける高い性能を達成するためにモデルを最適化するための新しい手法を提案する。
本稿では、これらの進歩をジェイルブレイクモデルに応用し、協調LDMから有害な応答を誘発する。
論文 参考訳(メタデータ) (2025-02-03T18:59:01Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - Distract Large Language Models for Automatic Jailbreak Attack [8.364590541640482]
大規模言語モデルの自動レッドチーム化のための新しいブラックボックスジェイルブレイクフレームワークを提案する。
我々は、Jailbreak LLMに対する反復最適化アルゴリズムを用いて、悪意のあるコンテンツの隠蔽とメモリリフレーミングを設計した。
論文 参考訳(メタデータ) (2024-03-13T11:16:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。