論文の概要: JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models
- arxiv url: http://arxiv.org/abs/2505.17568v1
- Date: Fri, 23 May 2025 07:29:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.89476
- Title: JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models
- Title(参考訳): JALMBench: オーディオ言語モデルにおけるジェイルブレイク脆弱性のベンチマーク
- Authors: Zifan Peng, Yule Liu, Zhen Sun, Mingchen Li, Zeren Luo, Jingyi Zheng, Wenhan Dong, Xinlei He, Xuechao Wang, Yingjie Xue, Shengmin Xu, Xinyi Huang,
- Abstract要約: 本稿では,JALMBenchについて述べる。JALMBenchは,音声言語モデル(ALM)のジェイルブレイク攻撃に対する安全性を評価するための,テキストファーストの総合ベンチマークである。
JALMBenchを用いて、攻撃効率、話題感度、音声の多様性、攻撃表現の詳細な分析を行う。
- 参考スコア(独自算出の注目度): 25.93179924805564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio Language Models (ALMs) have made significant progress recently. These models integrate the audio modality directly into the model, rather than converting speech into text and inputting text to Large Language Models (LLMs). While jailbreak attacks on LLMs have been extensively studied, the security of ALMs with audio modalities remains largely unexplored. Currently, there is a lack of an adversarial audio dataset and a unified framework specifically designed to evaluate and compare attacks and ALMs. In this paper, we present JALMBench, the \textit{first} comprehensive benchmark to assess the safety of ALMs against jailbreak attacks. JALMBench includes a dataset containing 2,200 text samples and 51,381 audio samples with over 268 hours. It supports 12 mainstream ALMs, 4 text-transferred and 4 audio-originated attack methods, and 5 defense methods. Using JALMBench, we provide an in-depth analysis of attack efficiency, topic sensitivity, voice diversity, and attack representations. Additionally, we explore mitigation strategies for the attacks at both the prompt level and the response level.
- Abstract(参考訳): 音声言語モデル(ALM)は近年大きな進歩を遂げている。
これらのモデルは、音声をテキストに変換し、Large Language Models (LLM) にテキストを入力するのではなく、直接モデルにオーディオモダリティを統合する。
LLMに対するジェイルブレイク攻撃は広く研究されているが、オーディオモダリティを持つALMのセキュリティはほとんど解明されていない。
現在、攻撃とALMを評価し比較するために特別に設計された、敵対的なオーディオデータセットと統合されたフレームワークが欠如している。
本稿では,脱獄攻撃に対するALMの安全性を評価するために,textit{first} ベンチマークである JALMBench を提案する。
JALMBenchには2,200のテキストサンプルと268時間以上の51,381のオーディオサンプルを含むデータセットが含まれている。
12のメインストリームALM、4つのテキスト転送、4つのオーディオ指向攻撃方法、5つの防御方法をサポートしている。
JALMBenchを用いて、攻撃効率、話題感度、音声の多様性、攻撃表現の詳細な分析を行う。
さらに,攻撃の即時レベルと応答レベルの両方における緩和戦略についても検討する。
関連論文リスト
- Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models [19.373533532464915]
LAMのjailbreak脆弱性を評価するために特別に設計された最初のベンチマークであるAJailBenchを紹介します。
このデータセットを使用して、いくつかの最先端のLAMを評価し、攻撃間で一貫性のある堅牢性を示すものはありません。
以上の結果から, セマンティックに保存された摂動でさえ, 先行するLAMの安全性を著しく低下させる可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-21T11:47:47Z) - Multilingual and Multi-Accent Jailbreaking of Audio LLMs [19.5428160851918]
Multi-AudioJailは、マルチリンガルおよびマルチアクセントオーディオジェイルブレイクを利用する最初の体系的なフレームワークである。
音の摂動が言語間音声学とどのように相互作用し、ジェイルブレイクの成功率を急上昇させるかを示す。
クロスモーダル・ディフェンスの研究を促進するためにデータセットをリリースする予定です。
論文 参考訳(メタデータ) (2025-04-01T18:12:23Z) - Dialogue Injection Attack: Jailbreaking LLMs through Context Manipulation [12.376058015074186]
本稿では,これらの攻撃の成功率を高めるために,対話履歴を活用する新しいジェイルブレイクパラダイムであるダイアログインジェクションアタック(DIA)を導入する。
DIAはブラックボックスで動作し、チャットAPIへのアクセスやLLMのチャットテンプレートの知識のみを必要とする。
Llama-3.1 や GPT-4o など最近の LLM では,DIA が攻撃成功率を達成している。
論文 参考訳(メタデータ) (2025-03-11T09:00:45Z) - `Do as I say not as I do': A Semi-Automated Approach for Jailbreak Prompt Attack against Multimodal LLMs [33.49407213040455]
マルチモーダル大言語モデル(LLM)に対する最初の音声ベースのジェイルブレイク攻撃を導入する。
本稿では,不許可なプロンプトを,良心的かつ物語駆動的なプロンプトによって側面に配置する,新たな戦略を提案する。
我々は、Flanking Attackは最先端のLLMを操作でき、不整合および禁止された出力を生成することを実証する。
論文 参考訳(メタデータ) (2025-02-02T10:05:08Z) - Audio Is the Achilles' Heel: Red Teaming Audio Large Multimodal Models [50.89022445197919]
我々は、オープンソースのオーディオLMMが有害な音声質問に対して平均69.14%の攻撃成功率を被っていることを示す。
Gemini-1.5-Proの音声固有のジェイルブレイクは、有害なクエリベンチマークで70.67%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-10-31T12:11:17Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。