論文の概要: When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs
- arxiv url: http://arxiv.org/abs/2508.03365v1
- Date: Tue, 05 Aug 2025 12:14:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.948257
- Title: When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs
- Title(参考訳): 良質な音が逆らうとき: 良質な入力付きオーディオランゲージモデルの脱獄
- Authors: Bodam Kim, Hiskias Dingeto, Taeyoun Kwon, Dasol Choi, DongGeon Lee, Haon Park, JaeHoon Lee, Jongho Shin,
- Abstract要約: 本稿では,WhisperInjectについて紹介する。
最先端のオーディオ言語モデルを操作して有害なコンテンツを生成することができる。
提案手法は,人間の聴取者に不慣れな音声入力において,知覚不能な摂動を用いる。
- 参考スコア(独自算出の注目度): 1.911526481015
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As large language models become increasingly integrated into daily life, audio has emerged as a key interface for human-AI interaction. However, this convenience also introduces new vulnerabilities, making audio a potential attack surface for adversaries. Our research introduces WhisperInject, a two-stage adversarial audio attack framework that can manipulate state-of-the-art audio language models to generate harmful content. Our method uses imperceptible perturbations in audio inputs that remain benign to human listeners. The first stage uses a novel reward-based optimization method, Reinforcement Learning with Projected Gradient Descent (RL-PGD), to guide the target model to circumvent its own safety protocols and generate harmful native responses. This native harmful response then serves as the target for Stage 2, Payload Injection, where we use Projected Gradient Descent (PGD) to optimize subtle perturbations that are embedded into benign audio carriers, such as weather queries or greeting messages. Validated under the rigorous StrongREJECT, LlamaGuard, as well as Human Evaluation safety evaluation framework, our experiments demonstrate a success rate exceeding 86% across Qwen2.5-Omni-3B, Qwen2.5-Omni-7B, and Phi-4-Multimodal. Our work demonstrates a new class of practical, audio-native threats, moving beyond theoretical exploits to reveal a feasible and covert method for manipulating AI behavior.
- Abstract(参考訳): 大きな言語モデルが日々の生活にますます統合されるにつれて、音声は人間とAIのインタラクションの鍵となるインターフェースとして現れてきた。
しかし、この利便性は新たな脆弱性も導入し、オーディオを敵に対する潜在的な攻撃面にする。
我々の研究は、最先端の音声言語モデルを操作して有害なコンテンツを生成できる2段階の敵対的オーディオアタックフレームワークであるWhisperInjectを紹介した。
提案手法は,人間の聴取者に不慣れな音声入力において,知覚不能な摂動を用いる。
第1段階では、新たな報酬に基づく最適化手法であるReinforcement Learning with Projected Gradient Descent (RL-PGD)を用いて、ターゲットモデルを誘導し、独自の安全プロトコルを回避し、有害なネイティブ応答を生成する。
このネイティブな有害な応答は、ステージ2のターゲットとして機能し、天気予報や挨拶メッセージなどの良質なオーディオキャリアに埋め込まれた微妙な摂動を最適化するために、PGD(Projected Gradient Descent)を使用します。
厳格なStrongREJECT,LlamaGuard,およびHuman Evaluation Safety Evaluation frameworkで検証し,Qwen2.5-Omni-3B,Qwen2.5-Omni-7B,Phi-4-Multimodalで86%以上の成功率を示した。
私たちの研究は、AIの振る舞いを操作するための実用的で隠蔽的な方法を明らかにするために、理論的なエクスプロイトを越えて、実用的なオーディオネイティブな脅威の新たなクラスを実証しています。
関連論文リスト
- Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。
近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。
脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Exploiting Vulnerabilities in Speech Translation Systems through Targeted Adversarial Attacks [59.87470192277124]
本稿では,非知覚的音声操作による音声翻訳システム構築手法について検討する。
本研究では,(1)ソース音声への摂動注入,(2)ターゲット翻訳を誘導する対向音楽の生成という2つの革新的なアプローチを提案する。
我々の実験では、注意深く作られた音声摂動は、ターゲットとなる有害な出力を生成するために翻訳モデルを誤解させる可能性があるが、敵対的な音楽はこの目標をより隠蔽的に達成する。
この研究の意味は、直ちにセキュリティ上の懸念を越えて、ニューラル音声処理システムの解釈可能性と堅牢性に光を当てることである。
論文 参考訳(メタデータ) (2025-03-02T16:38:16Z) - "I am bad": Interpreting Stealthy, Universal and Robust Audio Jailbreaks in Audio-Language Models [0.9480364746270077]
本稿では,Audio-Language Models(ALMs)を対象とする音声ジェイルブレイクについて検討する。
我々は、プロンプト、タスク、さらにはベースオーディオサンプルをまたいで一般化する対向的摂動を構築する。
我々は、ALMがこれらの音声相手の例をどう解釈するかを分析し、知覚不能な一対一の有毒な音声を符号化する。
論文 参考訳(メタデータ) (2025-02-02T08:36:23Z) - Who Can Withstand Chat-Audio Attacks? An Evaluation Benchmark for Large Audio-Language Models [60.72029578488467]
アドリラルオーディオ攻撃は、人間と機械の相互作用における大きなオーディオ言語モデル(LALM)の利用の増加に重大な脅威をもたらす。
本稿では,4種類の音声攻撃を含むChat-Audio Attacksベンチマークを紹介する。
Gemini-1.5-Pro, GPT-4oなど, 音声対話機能を有する6つの最先端LALMの評価を行った。
論文 参考訳(メタデータ) (2024-11-22T10:30:48Z) - FlowMur: A Stealthy and Practical Audio Backdoor Attack with Limited Knowledge [13.43804949744336]
FlowMurはステルスで実用的なオーディオバックドア攻撃で、限られた知識で起動できる。
2つのデータセットで実施された実験は、FlowMurがデジタルと物理の両方で高い攻撃性能を達成することを示した。
論文 参考訳(メタデータ) (2023-12-15T10:26:18Z) - Robust Safety Classifier for Large Language Models: Adversarial Prompt
Shield [7.5520641322945785]
大規模言語モデルの安全性は、敵の攻撃に対する脆弱性のため、依然として重要な懸念事項である。
本稿では,検出精度を向上し,対向プロンプトに対するレジリエンスを示す軽量モデルであるAdversarial Prompt Shield(APS)を紹介する。
また、対戦型トレーニングデータセットを自律的に生成するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2023-10-31T22:22:10Z) - Defense Against Adversarial Attacks on Audio DeepFake Detection [0.4511923587827302]
Audio DeepFakes (DF) は、ディープラーニングを用いて人工的に生成された発話である。
脅威を防ぐために、生成された音声を検出する複数のニューラルネットワークベースの手法が提案されている。
論文 参考訳(メタデータ) (2022-12-30T08:41:06Z) - Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual
Active Speaker Detection [88.74863771919445]
我々は、音声のみ、視覚のみ、および音声-視覚的敵対攻撃下でのAVASDモデルの脆弱性を明らかにする。
また,攻撃者が現実的な相手を見つけるのを困難にするため,新たな音声・視覚的相互作用損失(AVIL)を提案する。
論文 参考訳(メタデータ) (2022-10-03T08:10:12Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。