論文の概要: Rebellion: Noise-Robust Reasoning Training for Audio Reasoning Models
- arxiv url: http://arxiv.org/abs/2511.09682v1
- Date: Fri, 14 Nov 2025 01:04:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.411938
- Title: Rebellion: Noise-Robust Reasoning Training for Audio Reasoning Models
- Title(参考訳): 反響:音響共振モデルのためのノイズ-ローバスト共振訓練
- Authors: Tiansheng Huang, Virat Shejwalkar, Oscar Chang, Milad Nasr, Ling Liu,
- Abstract要約: 適切な安全推論データを持つ標準RTは、バニラオーディオのジェイルブレイクからARMを保護することができることを示す。
我々は、ARMが最悪の表現フロートに対して堅牢であるように訓練する堅牢なRTであるRebellionを提案する。
- 参考スコア(独自算出の注目度): 29.307379054067948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instilling reasoning capabilities in large models (LMs) using reasoning training (RT) significantly improves LMs' performances. Thus Audio Reasoning Models (ARMs), i.e., audio LMs that can reason, are becoming increasingly popular. However, no work has studied the safety of ARMs against jailbreak attacks that aim to elicit harmful responses from target models. To this end, first, we show that standard RT with appropriate safety reasoning data can protect ARMs from vanilla audio jailbreaks, but cannot protect them against our proposed simple yet effective jailbreaks. We show that this is because of the significant representation drift between vanilla and advanced jailbreaks which forces the target ARMs to emit harmful responses. Based on this observation, we propose Rebellion, a robust RT that trains ARMs to be robust to the worst-case representation drift. All our results are on Qwen2-Audio; they demonstrate that Rebellion: 1) can protect against advanced audio jailbreaks without compromising performance on benign tasks, and 2) significantly improves accuracy-safety trade-off over standard RT method.
- Abstract(参考訳): 推論学習(RT)を用いた大規模モデル (LM) における推論能力の注入は, LMの性能を著しく向上させる。
このように、推論可能なオーディオLM(Audio Reasoning Models, ARM)は、ますます人気が高まっている。
しかし、ターゲットモデルから有害な反応を誘発することを目的としたジェイルブレイク攻撃に対するARMの安全性について研究する研究は行われていない。
この目的のために、まず、適切な安全推論データを持つ標準RTは、ARMをバニラオーディオのジェイルブレイクから保護できるが、提案されている単純で効果的なジェイルブレイクから保護することはできないことを示す。
これは、バニラと先進的なジェイルブレイクの間の顕著な表現の漂流によるもので、ターゲットのARMに有害な応答を起こさせることになる。
この観測に基づいて、最悪の表現ドリフトに対してARMを堅牢に訓練する頑健なRTであるRebellionを提案する。
結果はすべてQwen2-Audioに関するものです。
1) 良質な業務における性能を損なうことなく、先進的なオーディオ・ジェイルブレイクから保護することができる。
2) RT法よりも精度・安全性のトレードオフが大幅に改善された。
関連論文リスト
- ALMGuard: Safety Shortcuts and Where to Find Them as Guardrails for Audio-Language Models [30.737474893631262]
ALMGuardは、ALM(Audio-Language Models)に適した最初の防衛フレームワークである。
安全に整合したショートカットがALMに自然に存在するという仮定に基づいて、普遍的ショートカット活性化摂動(SAP)を識別する手法を設計する。
また,Mel-Gradient Sparse Mask (M-GSM)を提案する。
論文 参考訳(メタデータ) (2025-10-30T03:19:59Z) - Defense-to-Attack: Bypassing Weak Defenses Enables Stronger Jailbreaks in Vision-Language Models [32.752269224536754]
Defense2Attackは、Vision-Language Modelsの安全ガードレールをバイパスする新しいジェイルブレイク手法である。
Defense2Attackは単一の試行で優れたジェイルブレイク性能を達成し、最先端の攻撃方法より優れている。
論文 参考訳(メタデータ) (2025-09-16T06:25:58Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - AudioJailbreak: Jailbreak Attacks against End-to-End Large Audio-Language Models [19.59499038333469]
近年,大規模音声言語モデル (LALM) に対するジェイルブレイク攻撃について検討されている。
本稿では,非同期性,普遍性,ステルス性,強靭性を備えた新しいオーディオジェイルブレイク攻撃であるAudioJailbreakを提案する。
論文 参考訳(メタデータ) (2025-05-20T09:10:45Z) - Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、Multimodal Large Language Models (MLLM) はジェイルブレイク攻撃に対して脆弱である。
我々は,ジェイルブレイク攻撃に対する防御のために,制御復号化による安全な報酬モデルを活用する推論時防御フレームワークImmuneを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:00:10Z) - BlueSuffix: Reinforced Blue Teaming for Vision-Language Models Against Jailbreak Attacks [62.58434630634917]
本稿では,ターゲットVLMをジェイルブレイク攻撃から防御するブルーチーム方式のBlueSuffixを提案する。
BlueSuffixには、1)jailbreakイメージに対する視覚的パーファイア、2)jailbreakテキストに対するテキストパーファイア、3)Blue-teamサフィックスジェネレータの3つの重要なコンポーネントが含まれている。
我々はBlueSuffixがベースラインディフェンスを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-10-28T12:43:47Z) - A StrongREJECT for Empty Jailbreaks [72.8807309802266]
StrongREJECTは、ジェイルブレイクのパフォーマンスを評価するための高品質なベンチマークである。
これは、被害者モデルが禁止されたプロンプトに対する応答の有害性を評価する。
それは、ジェイルブレイクの有効性の人間の判断と最先端の合意を達成します。
論文 参考訳(メタデータ) (2024-02-15T18:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。