論文の概要: "I am bad": Interpreting Stealthy, Universal and Robust Audio Jailbreaks in Audio-Language Models
- arxiv url: http://arxiv.org/abs/2502.00718v1
- Date: Sun, 02 Feb 2025 08:36:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:52:25.278039
- Title: "I am bad": Interpreting Stealthy, Universal and Robust Audio Jailbreaks in Audio-Language Models
- Title(参考訳): 「私は悪い」:音声言語モデルにおけるステルス、ユニバーサル、ロバストなオーディオジェイルブレークの解釈
- Authors: Isha Gupta, David Khachaturov, Robert Mullins,
- Abstract要約: 本稿では,Audio-Language Models(ALMs)を対象とする音声ジェイルブレイクについて検討する。
我々は、プロンプト、タスク、さらにはベースオーディオサンプルをまたいで一般化する対向的摂動を構築する。
我々は、ALMがこれらの音声相手の例をどう解釈するかを分析し、知覚不能な一対一の有毒な音声を符号化する。
- 参考スコア(独自算出の注目度): 0.9480364746270077
- License:
- Abstract: The rise of multimodal large language models has introduced innovative human-machine interaction paradigms but also significant challenges in machine learning safety. Audio-Language Models (ALMs) are especially relevant due to the intuitive nature of spoken communication, yet little is known about their failure modes. This paper explores audio jailbreaks targeting ALMs, focusing on their ability to bypass alignment mechanisms. We construct adversarial perturbations that generalize across prompts, tasks, and even base audio samples, demonstrating the first universal jailbreaks in the audio modality, and show that these remain effective in simulated real-world conditions. Beyond demonstrating attack feasibility, we analyze how ALMs interpret these audio adversarial examples and reveal them to encode imperceptible first-person toxic speech - suggesting that the most effective perturbations for eliciting toxic outputs specifically embed linguistic features within the audio signal. These results have important implications for understanding the interactions between different modalities in multimodal models, and offer actionable insights for enhancing defenses against adversarial audio attacks.
- Abstract(参考訳): マルチモーダルな大規模言語モデルの台頭は、革新的な人間と機械の相互作用パラダイムを導入しただけでなく、機械学習の安全性における重要な課題も導入している。
音声言語モデル(ALM)は、音声通信の直感的な性質のため特に関係があるが、その障害モードについてはほとんど知られていない。
本稿では、ALMをターゲットとしたオーディオジェイルブレイクについて検討し、アライメント機構をバイパスする機能に着目した。
我々は,プロンプト,タスク,さらにはベースオーディオサンプルをまたいで一般化する対向的摂動を構築し,音響モダリティにおける最初の普遍的ジェイルブレイクを実証し,これらが実世界のシミュレートに有効であることを示す。
攻撃可能性の証明以外にも、ALMがこれらの音声相手の例をどう解釈し、知覚不能な一人称有毒な音声をエンコードするかを分析し、最も効果的な摂動は、有毒な出力を引き出すことであり、特に音声信号に言語的特徴が組み込まれていることを示唆している。
これらの結果は、マルチモーダルモデルにおける異なるモーダル間の相互作用を理解する上で重要な意味を持ち、敵対的音声攻撃に対する防御を強化するための実用的な洞察を提供する。
関連論文リスト
- Tune In, Act Up: Exploring the Impact of Audio Modality-Specific Edits on Large Audio Language Models in Jailbreak [35.62727804915181]
本稿では,大規模オーディオ言語モデル(LALM)のジェイルブレイクに対する推測に,音声固有の編集がどのような影響を及ぼすかを検討する。
音声編集ツールボックス(AET)を導入し、トーン調整、単語強調、ノイズ注入などのオーディオ・モダリティ編集を可能にする。
また,様々なオーディオ編集の下で,最先端のLALMを広範囲に評価し,ロバスト性を評価する。
論文 参考訳(メタデータ) (2025-01-23T15:51:38Z) - Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。
本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。
そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:34:24Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models [3.1511847280063696]
音声可能な基礎モデルは、適切なプロンプトを用いて自動音声認識以外のタスクを実行することができる。
音声プロンプト付き大規模言語モデルの開発により、さらに大きな制御オプションが生まれる可能性がある。
この柔軟性により、システムはモデル制御の敵攻撃の影響を受けやすいことが実証された。
論文 参考訳(メタデータ) (2024-07-05T13:04:31Z) - Muting Whisper: A Universal Acoustic Adversarial Attack on Speech Foundation Models [5.942307521138583]
モデル動作を操作するために,「特殊トークン」を敵攻撃によって利用することができることを示す。
本稿では,Whisper の $texttt|endoftext|>$ token の普遍的な音響的実現方法を提案する。
実験では、同じ0.64秒の対向音声セグメントが、ターゲットのWhisper ASRモデルを97%以上の音声サンプルでミュートできることを示した。
論文 参考訳(メタデータ) (2024-05-09T22:59:23Z) - A Systematic Evaluation of Adversarial Attacks against Speech Emotion Recognition Models [6.854732863866882]
音声感情認識(SER)は近年,様々な分野に応用される可能性から,常に注目を集めている。
近年の研究では、ディープラーニングモデルは敵の攻撃に弱いことが示されている。
論文 参考訳(メタデータ) (2024-04-29T09:00:32Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - Membership Inference Attacks Against Self-supervised Speech Models [62.73937175625953]
連続音声における自己教師付き学習(SSL)が注目されている。
ブラックボックスアクセス下でのMIA(Commanship Inference Attacks)を用いたSSL音声モデルに対する最初のプライバシ分析を行う。
論文 参考訳(メタデータ) (2021-11-09T13:00:24Z) - Characterizing the adversarial vulnerability of speech self-supervised
learning [95.03389072594243]
我々は,ゼロ知識とリミテッド知識の両方の敵からの攻撃の下で,そのようなパラダイムの敵対的脆弱性を調査するための最初の試みを行う。
実験結果から, SUPERB が提案するパラダイムは, 限られた知識を持つ敵に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2021-11-08T08:44:04Z) - CTAL: Pre-training Cross-modal Transformer for Audio-and-Language
Representations [20.239063010740853]
音声と言語間のモダリティ内およびモダリティ間接続を学習することを目的としたCTAL(Cross-modal Transformer for Audio-and-Language)を提案する。
感情分類,感情分析,話者検証など,様々なタスクにまたがる顕著な改善が観察された。
論文 参考訳(メタデータ) (2021-09-01T04:18:19Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。