論文の概要: SpeechJBB: Probing Safety Alignment and Comprehension in Large Audio Language Models under Code-Switched Speech
- arxiv url: http://arxiv.org/abs/2606.06037v2
- Date: Mon, 08 Jun 2026 08:49:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 13:21:50.614222
- Title: SpeechJBB: Probing Safety Alignment and Comprehension in Large Audio Language Models under Code-Switched Speech
- Title(参考訳): SpeechJBB:コードスイッチ音声による大規模音声モデルにおける安全性アライメントと理解の探索
- Authors: Virginia Ceccatelli, Yejin Jeon, David Ifeoluwa Adelani,
- Abstract要約: SpeechJBBは、最先端のLALM間でベンチマークを行うためのオーディオジェイルブレイクデータセットである。
コードスイッチングされた有害なオーディオは、ほぼ高いジェイルブレイク成功率(JSR)を示し、非英語のモノリンガルと非英語のコードスイッチングのペアは、最も高い攻撃成功を示している。
擬単語挿入はさらに拒絶率を減少させ、自然音による難読化が安全政策を効果的に回避できることを示した。
- 参考スコア(独自算出の注目度): 13.52804010671621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large audio language models (LALMs) are increasingly deployed in real-world applications, yet their safety alignment is still primarily evaluated on monolingual, text-based harmful prompts. This leaves their generalizability under multilingual and spoken settings, particularly code-switched speech, largely underexplored. To address this gap, we introduce SpeechJBB, an audio jailbreak dataset for benchmarking across multiple state-of-the-art LALMs. The extent of safety weaknesses is further probed by introducing an augmented setting where phonologically plausible pseudo-words are inserted around safety-critical terms to simulate localized obfuscation. Across models, code-switched harmful audio yields substantially high jailbreak success rates (JSR), with non-English monolingual and non-English code-switched pairs exhibiting the highest attack success. Pseudo-word insertion further reduces refusal rates, which demonstrates that natural-sounding obfuscation can effectively bypass safety policies.
- Abstract(参考訳): 大規模オーディオ言語モデル(LALM)は、現実のアプリケーションにますますデプロイされているが、その安全性は、主にモノリンガルなテキストベースの有害なプロンプトで評価されている。
このことは、多言語および音声設定下での一般化可能性、特にコード変更された音声は、ほとんど探索されていない。
このギャップに対処するために、複数の最先端のLALMをベンチマークするオーディオジェイルブレイクデータセットであるSpeechJBBを導入する。
さらに、音韻的にもっともらしい擬単語を、局所的難読化をシミュレートする安全臨界項の周囲に挿入する拡張設定を導入することにより、安全性の弱点の程度を調査する。
モデル全体では、コードスイッチされた有害なオーディオはジェイルブレイクの成功率(JSR)が著しく高く、非英語のモノリンガルと非英語のコードスイッチされたペアは攻撃の成功率が最も高い。
擬単語挿入はさらに拒絶率を減少させ、自然音による難読化が安全政策を効果的に回避できることを示した。
関連論文リスト
- Synthetic Voices, Real Threats: Evaluating Large Text-to-Speech Models in Generating Harmful Audio [63.18443674004945]
この研究は、TSシステムを利用して有害なコンテンツを含む音声を生成する、コンテンツ中心の脅威を探究する。
HARMGENは、これらの課題に対処する2つのファミリーにまとめられた5つの攻撃群である。
論文 参考訳(メタデータ) (2025-11-14T03:00:04Z) - Audio Jailbreak Attacks: Exposing Vulnerabilities in SpeechGPT in a White-Box Framework [6.002582335323663]
白箱シナリオにおけるMLLM(Multimodal Large Language Models)の音声入力を対象とする逆攻撃を提案する。
本稿では,新たなトークンレベルアタックを導入し,モデルの音声トークン化へのアクセスを活用して,逆トークン列を生成する。
当社のアプローチでは,複数の制限されたタスクに対して,最大99%の攻撃成功率を実現しています。
論文 参考訳(メタデータ) (2025-05-24T20:46:36Z) - Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models [19.373533532464915]
LAMのjailbreak脆弱性を評価するために特別に設計された最初のベンチマークであるAJailBenchを紹介します。
このデータセットを使用して、いくつかの最先端のLAMを評価し、攻撃間で一貫性のある堅牢性を示すものはありません。
以上の結果から, セマンティックに保存された摂動でさえ, 先行するLAMの安全性を著しく低下させる可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-21T11:47:47Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - Multilingual and Multi-Accent Jailbreaking of Audio LLMs [19.5428160851918]
Multi-AudioJailは、マルチリンガルおよびマルチアクセントオーディオジェイルブレイクを利用する最初の体系的なフレームワークである。
音の摂動が言語間音声学とどのように相互作用し、ジェイルブレイクの成功率を急上昇させるかを示す。
クロスモーダル・ディフェンスの研究を促進するためにデータセットをリリースする予定です。
論文 参考訳(メタデータ) (2025-04-01T18:12:23Z) - Jailbreak-AudioBench: In-Depth Evaluation and Analysis of Jailbreak Threats for Large Audio Language Models [35.884976768636726]
大規模言語モデル(LLM)は、広範囲の自然言語処理タスクで印象的なゼロショット性能を示す。
様々なモダリティエンコーダを統合することで、テキストだけでなく視覚や聴覚のモダリティ入力を処理するマルチモーダル大言語モデル(MLLM)が生まれる。
これらの高度な機能は、ジェイルブレイク攻撃を通じて有害または不適切なコンテンツを生成するためにモデルを利用することができるため、重大なセキュリティリスクを引き起こす可能性がある。
論文 参考訳(メタデータ) (2025-01-23T15:51:38Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。