論文の概要: SPIRIT: Patching Speech Language Models against Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2505.13541v1
- Date: Sun, 18 May 2025 21:51:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.382744
- Title: SPIRIT: Patching Speech Language Models against Jailbreak Attacks
- Title(参考訳): SPIRIT: 脱獄攻撃に対する言語モデルの適用
- Authors: Amirbek Djanibekov, Nurdaulet Mukhituly, Kentaro Inui, Hanan Aldarmaki, Nils Lukas,
- Abstract要約: 音声言語モデル(SLM)は、音声命令による自然な対話を可能にする。
我々は、敵の攻撃を分析し、SLMが脱獄攻撃に対してかなり脆弱であることを示す。
セキュリティ向上のために,推論時に介入するポストホック・パッチ・ディフェンスを提案する。
- 参考スコア(独自算出の注目度): 21.299244714520828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech Language Models (SLMs) enable natural interactions via spoken instructions, which more effectively capture user intent by detecting nuances in speech. The richer speech signal introduces new security risks compared to text-based models, as adversaries can better bypass safety mechanisms by injecting imperceptible noise to speech. We analyze adversarial attacks and find that SLMs are substantially more vulnerable to jailbreak attacks, which can achieve a perfect 100% attack success rate in some instances. To improve security, we propose post-hoc patching defenses used to intervene during inference by modifying the SLM's activations that improve robustness up to 99% with (i) negligible impact on utility and (ii) without any re-training. We conduct ablation studies to maximize the efficacy of our defenses and improve the utility/security trade-off, validated with large-scale benchmarks unique to SLMs.
- Abstract(参考訳): 音声言語モデル(SLM)は、音声命令による自然な対話を可能にし、音声中のニュアンスを検出することによって、ユーザの意図をより効果的に捉える。
よりリッチな音声信号は、テキストベースのモデルと比較して新たなセキュリティリスクをもたらす。
我々は、敵攻撃を分析し、SLMが脱獄攻撃に対して著しく脆弱であることを発見し、場合によっては100%の攻撃成功率を達成することができる。
セキュリティ向上のために,SLMのアクティベーションを改良し,99%のロバスト性を向上することで,推論中に介入するポストホックパッチ防衛を提案する。
一 実用性及び実用性に対する無視的な影響
(二)再訓練なし。
我々は, SLM 特有の大規模ベンチマークを用いて, 防衛効果を最大化し, 実用・セキュリティトレードオフを改善するためのアブレーション研究を行っている。
関連論文リスト
- Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - SPIN: Self-Supervised Prompt INjection [16.253558670549697]
敵の攻撃と脱獄攻撃は 安全アライメントを回避し モデルに有害な反応をもたらすよう提案されている
自己監督型プロンプト注入(SPIN)を導入し,LSMに対するこれらの様々な攻撃を検出し,逆転させることができる。
本システムでは,攻撃成功率を87.9%まで削減し,ユーザ要求の良質な性能を維持しながら,攻撃成功率を最大で87.9%削減する。
論文 参考訳(メタデータ) (2024-10-17T05:40:54Z) - Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs [13.317364896194903]
本稿では,大規模言語モデルの汎用防衛能力を高めるための2段階の逆調整フレームワークを提案する。
第1段階では,トークンレベルの逆数生成を効率的に行うために,階層型メタユニバーサル逆数学習を導入する。
第2段階では,自動対向プロンプト学習により,意味レベルの対向プロンプトを反復的に洗練する手法を提案する。
論文 参考訳(メタデータ) (2024-06-07T15:37:15Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models [34.557309967708406]
本研究では,このような命令追従型音声モデルの潜在的な脆弱性を,敵対的攻撃や脱獄に対して検討する。
我々は、人間の関与なしに、ホワイトボックスとブラックボックスの攻撃設定の両方でジェイルブレイクSLMの逆例を生成するアルゴリズムを設計する。
本モデルでは,発話指示による対話データに基づいて,音声質問応答タスクにおける最先端のパフォーマンスを達成し,安全性と有用性の両方の指標で80%以上をスコア付けした。
論文 参考訳(メタデータ) (2024-05-14T04:51:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。