論文の概要: MaskForge: Structure-Aware Adaptive Attacks for Jailbreaking Diffusion Large Language Models
- arxiv url: http://arxiv.org/abs/2606.04027v1
- Date: Mon, 01 Jun 2026 18:10:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.246863
- Title: MaskForge: Structure-Aware Adaptive Attacks for Jailbreaking Diffusion Large Language Models
- Title(参考訳): MaskForge: 拡散大言語モデルのジェイルブレークに対する構造認識型アダプティブアタック
- Authors: Yingzi Ma, Zhengyue Zhao, Xiaogeng Liu, Minhui Xue, Yue Zhao, Chaowei Xiao,
- Abstract要約: MaskForgeは完全にブラックボックス対応の攻撃で、構造パターンのライブラリを最適化した検索としてdLLMのレッドチームを実行する。
攻撃成功率は79.3%であり、最強のdLLMベースラインよりも17.6%向上している。
- 参考スコア(独自算出の注目度): 53.05463623673949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion large language models (dLLMs) generate text by iteratively denoising partially masked sequences under bidirectional context, exposing a safety surface distinct from autoregressive LLMs. Because mask tokens are native inputs and tokens are committed by confidence rather than position, harmful content can be induced through infilling and outside the monitored prefix. Existing jailbreaks either miss this native infill capability or rely on low-diversity mask-bearing templates applied uniformly across goals, with little structural adaptation or accumulated attack experience. We propose MaskForge, a fully black-box adaptive attack that casts dLLM red-teaming as optimized search over a growing library of structural patterns. MaskForge abstracts successful attempts into reusable schemas, selects goal-compatible patterns with a UCB bandit, and invokes a scorer-guided fallback when the current library fails. Successful attempts are distilled back into the pattern library, enabling experience to accumulate across goals. Across five public dLLMs and three benchmarks, MaskForge achieves an average attack success rate of 79.3%, a 17.6% relative improvement over the strongest competing dLLM baseline. The matured pattern library further transfers to AdvBench without any updates, achieving a 88.2% attack success rate and a 67% relative improvement over the strongest competing baseline.
- Abstract(参考訳): 拡散大言語モデル(dLLM)は、双方向コンテキスト下で部分的にマスキングされたシーケンスを反復的にデノベートすることでテキストを生成し、自己回帰型LLMとは異なる安全性面を露呈する。
マスクトークンはネイティブ入力であり、トークンは位置よりも信頼によってコミットされるため、監視されたプレフィックスの内外から有害なコンテンツが誘導される。
既存のジェイルブレイクは、このネイティブな埋め込み能力を見逃すか、または、目標に対して一様に適用された低多様性マスク付きテンプレートに依存し、構造的な適応や攻撃経験の蓄積がほとんどない。
我々は,構造パターンのライブラリを最適化した検索として,dLLMのレッドチームを実行する,完全にブラックボックス適応型攻撃であるMaskForgeを提案する。
MaskForgeは再利用可能なスキーマの試行を抽象化し、 UCB bandit でゴール互換のパターンを選択し、現在のライブラリが失敗するとスコアラー誘導のフォールバックを起動する。
成功した試みはパターンライブラリに戻され、経験が目標を越えて蓄積される。
5つの公開dLLMと3つのベンチマークで、MaskForgeは79.3%の平均攻撃成功率を達成した。
成熟したパターンライブラリはさらにAdvBenchにアップデートすることなく移行し、88.2%の攻撃成功率と67%の相対的な改善を達成した。
関連論文リスト
- SimSD: Simple Speculative Decoding in Diffusion Language Models [61.33773959352141]
拡散大言語モデル (dLLMs) は、並列またはブロックワイド復号による高速な推論を提供する。
彼らのマスク付き言語モデリングの定式化は、標準的なトークンレベルの投機的復号法とは相容れないままである。
我々は,dLLMに時間的に有効なトークンレベルのコンテキストを付与する,SimSDと呼ばれるdLLMの投機的復号アルゴリズムを提案する。
提案手法は,平均生成品質を維持しつつ,最大7.46倍高い復号スループットを実現する。
論文 参考訳(メタデータ) (2026-06-01T17:46:46Z) - Efficient and Adaptable Detection of Malicious LLM Prompts via Bootstrap Aggregation [4.467773944156384]
Black-boxモデレーションAPIは、限られた透明性を提供し、進化する脅威に不適応する。
大きなLLM判事を用いたホワイトボックスのアプローチは、計算コストを禁止し、新しい攻撃に対して高価な再訓練を必要とする。
本稿では,モジュール型で軽量で段階的に更新可能なフレームワークであるBAGELについて紹介する。
論文 参考訳(メタデータ) (2026-02-08T17:11:33Z) - Learning Unmasking Policies for Diffusion Language Models [33.44995119635116]
言語モデル(dLLM)は、多くのタスクにおいて、自己回帰的な処理の下流のパフォーマンスにマッチする。
特別なマスクトークンで満たされたバッファが、モデルの語彙からサンプリングされたトークンに徐々に置き換えられる。
本研究では,強化学習を用いたサンプリング手順の訓練を提案する。
論文 参考訳(メタデータ) (2025-12-09T20:44:33Z) - ALTo: Adaptive-Length Tokenizer for Autoregressive Mask Generation [4.819881233084014]
自己回帰マスク生成のための適応長トークンであるALToを提案する。
新規なトークン長予測器を、長さ正規化項と微分可能なトークンチャンキング戦略とともに設計する。
ALToLLMは適応トークンコストで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-22T10:26:51Z) - DiffusionAttacker: Diffusion-Driven Prompt Manipulation for LLM Jailbreak [51.8218217407928]
大規模言語モデル (LLM) は、慎重に入力を行うと有害なコンテンツを生成する可能性がある。
本稿では,拡散モデルにインスパイアされたジェイルブレイク書き換えのためのエンドツーエンド生成手法であるDiffusionAttackerを紹介する。
論文 参考訳(メタデータ) (2024-12-23T12:44:54Z) - Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。