論文の概要: Multi-Stream Perturbation Attack: Breaking Safety Alignment of Thinking LLMs Through Concurrent Task Interference
- arxiv url: http://arxiv.org/abs/2603.10091v1
- Date: Tue, 10 Mar 2026 15:40:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.629361
- Title: Multi-Stream Perturbation Attack: Breaking Safety Alignment of Thinking LLMs Through Concurrent Task Interference
- Title(参考訳): マルチストリーム摂動攻撃:同時タスク干渉によるLLMの安全性調整を破る
- Authors: Fan Yang,
- Abstract要約: 我々は、複数のタスクをインターリーブした処理において、思考モードがユニークな脆弱性を示すことを観察する。
単一プロンプト内で複数のタスクストリームによって重畳された干渉を生成するマルチストリーム摂動攻撃を提案する。
本手法は,主流モデルにおける攻撃成功率よりも高い攻撃成功率を達成する。
- 参考スコア(独自算出の注目度): 2.6986809342283262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread adoption of thinking mode in large language models (LLMs) has significantly enhanced complex task processing capabilities while introducing new security risks. When subjected to jailbreak attacks, the step-by-step reasoning process may cause models to generate more detailed harmful content. We observe that thinking mode exhibits unique vulnerabilities when processing interleaved multiple tasks. Based on this observation, we propose multi-stream perturbation attack, which generates superimposed interference by interweaving multiple task streams within a single prompt. We design three perturbation strategies: multi-stream interleaving, inversion perturbation, and shape transformation, which disrupt the thinking process through concurrent task interleaving, character reversal, and format constraints respectively. On JailbreakBench, AdvBench, and HarmBench datasets, our method achieves attack success rates exceeding most methods across mainstream models including Qwen3 series, DeepSeek, Qwen3-Max, and Gemini 2.5 Flash. Experiments show thinking collapse rates and response repetition rates reach up to 17% and 60% respectively, indicating multi-stream perturbation not only bypasses safety mechanisms but also causes thinking process collapse or repetitive outputs.
- Abstract(参考訳): 大規模言語モデル(LLM)における思考モードの普及は、新しいセキュリティリスクを導入しながら、複雑なタスク処理能力を著しく向上させた。
ジェイルブレイク攻撃を受けると、ステップバイステップの推論プロセスにより、モデルがより詳細な有害なコンテンツを生成する可能性がある。
我々は、複数のタスクをインターリーブした処理において、思考モードがユニークな脆弱性を示すことを観察する。
そこで本研究では,複数のタスクストリームを1つのプロンプト内で織り交ぜることで,重畳された干渉を発生させるマルチストリーム摂動攻撃を提案する。
マルチストリーム・インターリーブ, 逆摂動, 形状変換の3つの摂動戦略を設計し, 同時タスク・インターリーブ, 文字反転, フォーマット制約による思考プロセスをそれぞれ破壊する。
JailbreakBench、AdvBench、HarmBenchのデータセットでは、本手法は、Qwen3シリーズ、DeepSeek、Qwen3-Max、Gemini 2.5 Flashなど、主流モデルのほとんどのメソッドにまたがる攻撃成功率を達成する。
実験の結果、思考の崩壊率と反応の繰り返し率は、それぞれ17%と60%に達し、マルチストリームの摂動が安全メカニズムをバイパスするだけでなく、思考プロセスの崩壊や繰り返しのアウトプットを引き起こすことが示された。
関連論文リスト
- SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks [53.97948802255959]
本稿では,既存の戦略や外部データに頼ることなく,マルチターン攻撃者を訓練するフレームワークを提案する。
準備された自己調整は、非拒否的で、よく構造化された、多ターンの逆のプロンプトを微調整することで、使用可能なロールアウトを可能にする。
私たちは、意図の整合性、コンプライアンスリスク、詳細レベルを組み合わせたインテントドリフト対応の報酬を通じて、多ターンジェイルブレイクにおける有害な意図を保ちます。
論文 参考訳(メタデータ) (2026-02-06T16:44:57Z) - Automating Deception: Scalable Multi-Turn LLM Jailbreaks [0.7212939068975618]
フット・イン・ザ・ドア(FITD)のような心理的原理を活用する多ターン会話攻撃は、大規模言語モデル(LLM)に永続的な脅威をもたらす。
本稿では,大規模で心理的なマルチターンジェイルブレイクデータセットを生成するための,新しい自動パイプラインを提案する。
マルチターン(歴史のない)とシングルターン(歴史のない)の条件下で,3つのLLMファミリーから7つのモデルを評価する。
論文 参考訳(メタデータ) (2025-11-24T03:15:11Z) - Beyond Text: Multimodal Jailbreaking of Vision-Language and Audio Models through Perceptually Simple Transformations [0.0]
MLLM(Multimodal large language model)は目覚ましい進歩を遂げているが、敵の攻撃に対して致命的な脆弱さを保っている。
本稿では,視覚言語モデルと音声言語モデルの両方を対象として,マルチモーダルジェイルブレイクの体系的研究を行う。
評価は3つのハイリスク安全性カテゴリで1,900件の対人プロンプトにまたがる。
論文 参考訳(メタデータ) (2025-10-23T05:16:33Z) - GRAF: Multi-turn Jailbreaking via Global Refinement and Active Fabrication [55.63412213263305]
大規模言語モデルは、悪意のある目的のために誤用される可能性があるため、顕著な安全性のリスクを生じさせる。
そこで本研究では,各インタラクションにおける攻撃経路をグローバルに洗練する,新しいマルチターンジェイルブレーキング手法を提案する。
さらに、モデル応答を積極的に作成し、安全性に関する警告を抑えることにより、有害な出力を誘発する可能性を高める。
論文 参考訳(メタデータ) (2025-06-22T03:15:05Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Multi-scale Bottleneck Transformer for Weakly Supervised Multimodal Violence Detection [9.145305176998447]
弱教師付きマルチモーダル暴力検出は、複数のモダリティを活用することで暴力検出モデルを学ぶことを目的としている。
本稿では,情報冗長性,モダリティの不均衡,モダリティの非同期性といった課題に明示的に対処する,弱教師付きMVD法を提案する。
最大規模のXD-Violenceデータセットの実験により,提案手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2024-05-08T15:27:08Z) - Multi-granular Adversarial Attacks against Black-box Neural Ranking Models [111.58315434849047]
多粒性摂動を取り入れた高品質な逆数例を作成する。
我々は,多粒体攻撃を逐次的意思決定プロセスに変換する。
本手法は,攻撃の有効性と非受容性の両方において,一般的なベースラインを超えている。
論文 参考訳(メタデータ) (2024-04-02T02:08:29Z) - Learning to Generate Noise for Multi-Attack Robustness [126.23656251512762]
対人学習は、対人摂動に対する既存の方法の感受性を回避できる手法の1つとして登場した。
安全クリティカルなアプリケーションでは、攻撃者は様々な敵を採用してシステムを騙すことができるため、これらの手法は極端に便利である。
本稿では,複数種類の攻撃に対するモデルの堅牢性を改善するために,ノイズ発生を明示的に学習するメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T10:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。