論文の概要: "I am bad": Interpreting Stealthy, Universal and Robust Audio Jailbreaks in Audio-Language Models
- arxiv url: http://arxiv.org/abs/2502.00718v1
- Date: Sun, 02 Feb 2025 08:36:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:21:54.108332
- Title: "I am bad": Interpreting Stealthy, Universal and Robust Audio Jailbreaks in Audio-Language Models
- Title(参考訳): 「私は悪い」:音声言語モデルにおけるステルス、ユニバーサル、ロバストなオーディオジェイルブレークの解釈
- Authors: Isha Gupta, David Khachaturov, Robert Mullins,
- Abstract要約: 本稿では,Audio-Language Models(ALMs)を対象とする音声ジェイルブレイクについて検討する。
我々は、プロンプト、タスク、さらにはベースオーディオサンプルをまたいで一般化する対向的摂動を構築する。
我々は、ALMがこれらの音声相手の例をどう解釈するかを分析し、知覚不能な一対一の有毒な音声を符号化する。
- 参考スコア(独自算出の注目度): 0.9480364746270077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of multimodal large language models has introduced innovative human-machine interaction paradigms but also significant challenges in machine learning safety. Audio-Language Models (ALMs) are especially relevant due to the intuitive nature of spoken communication, yet little is known about their failure modes. This paper explores audio jailbreaks targeting ALMs, focusing on their ability to bypass alignment mechanisms. We construct adversarial perturbations that generalize across prompts, tasks, and even base audio samples, demonstrating the first universal jailbreaks in the audio modality, and show that these remain effective in simulated real-world conditions. Beyond demonstrating attack feasibility, we analyze how ALMs interpret these audio adversarial examples and reveal them to encode imperceptible first-person toxic speech - suggesting that the most effective perturbations for eliciting toxic outputs specifically embed linguistic features within the audio signal. These results have important implications for understanding the interactions between different modalities in multimodal models, and offer actionable insights for enhancing defenses against adversarial audio attacks.
- Abstract(参考訳): マルチモーダルな大規模言語モデルの台頭は、革新的な人間と機械の相互作用パラダイムを導入しただけでなく、機械学習の安全性における重要な課題も導入している。
音声言語モデル(ALM)は、音声通信の直感的な性質のため特に関係があるが、その障害モードについてはほとんど知られていない。
本稿では、ALMをターゲットとしたオーディオジェイルブレイクについて検討し、アライメント機構をバイパスする機能に着目した。
我々は,プロンプト,タスク,さらにはベースオーディオサンプルをまたいで一般化する対向的摂動を構築し,音響モダリティにおける最初の普遍的ジェイルブレイクを実証し,これらが実世界のシミュレートに有効であることを示す。
攻撃可能性の証明以外にも、ALMがこれらの音声相手の例をどう解釈し、知覚不能な一人称有毒な音声をエンコードするかを分析し、最も効果的な摂動は、有毒な出力を引き出すことであり、特に音声信号に言語的特徴が組み込まれていることを示唆している。
これらの結果は、マルチモーダルモデルにおける異なるモーダル間の相互作用を理解する上で重要な意味を持ち、敵対的音声攻撃に対する防御を強化するための実用的な洞察を提供する。
関連論文リスト
- Multilingual and Multi-Accent Jailbreaking of Audio LLMs [19.5428160851918]
Multi-AudioJailは、マルチリンガルおよびマルチアクセントオーディオジェイルブレイクを利用する最初の体系的なフレームワークである。
音の摂動が言語間音声学とどのように相互作用し、ジェイルブレイクの成功率を急上昇させるかを示す。
クロスモーダル・ディフェンスの研究を促進するためにデータセットをリリースする予定です。
論文 参考訳(メタデータ) (2025-04-01T18:12:23Z) - Exploiting Vulnerabilities in Speech Translation Systems through Targeted Adversarial Attacks [59.87470192277124]
本稿では,非知覚的音声操作による音声翻訳システム構築手法について検討する。
本研究では,(1)ソース音声への摂動注入,(2)ターゲット翻訳を誘導する対向音楽の生成という2つの革新的なアプローチを提案する。
我々の実験では、注意深く作られた音声摂動は、ターゲットとなる有害な出力を生成するために翻訳モデルを誤解させる可能性があるが、敵対的な音楽はこの目標をより隠蔽的に達成する。
この研究の意味は、直ちにセキュリティ上の懸念を越えて、ニューラル音声処理システムの解釈可能性と堅牢性に光を当てることである。
論文 参考訳(メタデータ) (2025-03-02T16:38:16Z) - Tune In, Act Up: Exploring the Impact of Audio Modality-Specific Edits on Large Audio Language Models in Jailbreak [35.62727804915181]
本稿では,大規模オーディオ言語モデル(LALM)のジェイルブレイクに対する推測に,音声固有の編集がどのような影響を及ぼすかを検討する。
音声編集ツールボックス(AET)を導入し、トーン調整、単語強調、ノイズ注入などのオーディオ・モダリティ編集を可能にする。
また,様々なオーディオ編集の下で,最先端のLALMを広範囲に評価し,ロバスト性を評価する。
論文 参考訳(メタデータ) (2025-01-23T15:51:38Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。
本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。
そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:34:24Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models [3.1511847280063696]
音声可能な基礎モデルは、適切なプロンプトを用いて自動音声認識以外のタスクを実行することができる。
音声プロンプト付き大規模言語モデルの開発により、さらに大きな制御オプションが生まれる可能性がある。
この柔軟性により、システムはモデル制御の敵攻撃の影響を受けやすいことが実証された。
論文 参考訳(メタデータ) (2024-07-05T13:04:31Z) - Muting Whisper: A Universal Acoustic Adversarial Attack on Speech Foundation Models [5.942307521138583]
モデル動作を操作するために,「特殊トークン」を敵攻撃によって利用することができることを示す。
本稿では,Whisper の $texttt|endoftext|>$ token の普遍的な音響的実現方法を提案する。
実験では、同じ0.64秒の対向音声セグメントが、ターゲットのWhisper ASRモデルを97%以上の音声サンプルでミュートできることを示した。
論文 参考訳(メタデータ) (2024-05-09T22:59:23Z) - Paralinguistics-Aware Speech-Empowered Large Language Models for Natural Conversation [46.93969003104427]
本稿では,広範な音声テキストLLMフレームワークである統一音声対話モデル(USDM)を紹介する。
USDMは、与えられた入力音声に関連する自然な韻律的特徴を持つコヒーレントな音声応答を生成するように設計されている。
提案手法は,従来のベースラインとカスケードベースラインを超越した自然な音声応答を効果的に生成する。
論文 参考訳(メタデータ) (2024-02-08T14:35:09Z) - Membership Inference Attacks Against Self-supervised Speech Models [62.73937175625953]
連続音声における自己教師付き学習(SSL)が注目されている。
ブラックボックスアクセス下でのMIA(Commanship Inference Attacks)を用いたSSL音声モデルに対する最初のプライバシ分析を行う。
論文 参考訳(メタデータ) (2021-11-09T13:00:24Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。