論文の概要: Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection
- arxiv url: http://arxiv.org/abs/2604.14604v1
- Date: Thu, 16 Apr 2026 04:22:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.718855
- Title: Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection
- Title(参考訳): 文脈依存型および知覚不能な聴覚プロンプト注入による大規模音声言語モデルのハイジャック
- Authors: Meng Chen, Kun Wang, Li Lu, Jiaheng Zhang, Tianwei Zhang,
- Abstract要約: 大規模な音声言語モデル(LALM)は、音声とテキストを密に統合することでインテリジェントな音声インタラクションをパワーアップする。
textitAudioHijackは,ハイジャックLALMに対して,文脈に依存しない,知覚不能な音声を生成するフレームワークである。
13種類のLALM実験では、6つのカテゴリーで一貫したハイジャックが行われた。
- 参考スコア(独自算出の注目度): 22.306688903148046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern Large audio-language models (LALMs) power intelligent voice interactions by tightly integrating audio and text. This integration, however, expands the attack surface beyond text and introduces vulnerabilities in the continuous, high-dimensional audio channel. While prior work studied audio jailbreaks, the security risks of malicious audio injection and downstream behavior manipulation remain underexamined. In this work, we reveal a previously overlooked threat, auditory prompt injection, under realistic constraints of audio data-only access and strong perceptual stealth. To systematically analyze this threat, we propose \textit{AudioHijack}, a general framework that generates context-agnostic and imperceptible adversarial audio to hijack LALMs. \textit{AudioHijack} employs sampling-based gradient estimation for end-to-end optimization across diverse models, bypassing non-differentiable audio tokenization. Through attention supervision and multi-context training, it steers model attention toward adversarial audio and generalizes to unseen user contexts. We also design a convolutional blending method that modulates perturbations into natural reverberation, making them highly imperceptible to users. Extensive experiments on 13 state-of-the-art LALMs show consistent hijacking across 6 misbehavior categories, achieving average success rates of 79\%-96\% on unseen user contexts with high acoustic fidelity. Real-world studies demonstrate that commercial voice agents from Mistral AI and Microsoft Azure can be induced to execute unauthorized actions on behalf of users. These findings expose critical vulnerabilities in LALMs and highlight the urgent need for dedicated defense.
- Abstract(参考訳): 現代の大規模音声言語モデル(LALM)は、音声とテキストを密に統合することで、インテリジェントな音声対話を実現する。
しかし、この統合は攻撃面をテキストを超えて拡張し、連続した高次元オーディオチャネルの脆弱性を導入している。
以前の研究はオーディオ・ジェイルブレイクを研究していたが、悪意のあるオーディオ・インジェクションや下流での動作操作のセキュリティリスクは過小評価されている。
本研究では,音声データのみのアクセスと強い知覚ステルスの現実的な制約の下で,これまで見過ごされていた脅威,聴覚的プロンプトインジェクションを明らかにする。
この脅威を体系的に解析するために, LALMをハイジャックするために, 文脈に依存しない, 知覚不能な音声を生成する一般的なフレームワークである textit{AudioHijack} を提案する。
\textit{AudioHijack} は、様々なモデルにわたるエンドツーエンドの最適化のためにサンプリングベースの勾配推定を採用し、微分不可能なオーディオトークン化を回避している。
注意監督とマルチコンテキストトレーニングを通じて、相手の音声に注意を向け、目に見えないユーザコンテキストに一般化する。
また、摂動を自然な残響に変調する畳み込みブレンディング法を設計し、ユーザにとって非常に受け入れ難いものにした。
13の最先端のLALMの大規模な実験では、6つの誤動作カテゴリーで一貫したハイジャックを行い、音響的忠実度の高い未確認ユーザコンテキストで平均79\%-96\%の成功率を達成した。
実世界の研究では、Mistral AIとMicrosoft Azureの商用音声エージェントが、ユーザに代わって不正なアクションを実行するように誘導できることが示されている。
これらの発見は、LALMの重大な脆弱性を明らかにし、専用の防衛の必要性を浮き彫りにしている。
関連論文リスト
- Stream-Voice-Anon: Enhancing Utility of Real-Time Speaker Anonymization via Neural Audio Codec and Language Models [51.7170633585748]
Stream-Voice-Anonは、ストリーミングスピーカーの匿名化に特化して、現代的なLMベースのNACアーキテクチャを適用している。
匿名化アプローチには、擬似話者表現サンプリング、話者埋め込みミキシング、多様なプロンプト選択戦略が組み込まれている。
VoicePrivacy 2024 Challengeプロトコルの下で、Stream-Voice-Anonは知性を大幅に改善した。
論文 参考訳(メタデータ) (2026-01-20T13:23:44Z) - Synthetic Voices, Real Threats: Evaluating Large Text-to-Speech Models in Generating Harmful Audio [63.18443674004945]
この研究は、TSシステムを利用して有害なコンテンツを含む音声を生成する、コンテンツ中心の脅威を探究する。
HARMGENは、これらの課題に対処する2つのファミリーにまとめられた5つの攻撃群である。
論文 参考訳(メタデータ) (2025-11-14T03:00:04Z) - When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs [1.911526481015]
本稿では,WhisperInjectについて紹介する。
最先端のオーディオ言語モデルを操作して有害なコンテンツを生成することができる。
提案手法は,人間の聴取者に不慣れな音声入力において,知覚不能な摂動を用いる。
論文 参考訳(メタデータ) (2025-08-05T12:14:01Z) - Audio Jailbreak Attacks: Exposing Vulnerabilities in SpeechGPT in a White-Box Framework [6.002582335323663]
白箱シナリオにおけるMLLM(Multimodal Large Language Models)の音声入力を対象とする逆攻撃を提案する。
本稿では,新たなトークンレベルアタックを導入し,モデルの音声トークン化へのアクセスを活用して,逆トークン列を生成する。
当社のアプローチでは,複数の制限されたタスクに対して,最大99%の攻撃成功率を実現しています。
論文 参考訳(メタデータ) (2025-05-24T20:46:36Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - "I am bad": Interpreting Stealthy, Universal and Robust Audio Jailbreaks in Audio-Language Models [0.9480364746270077]
本稿では,Audio-Language Models(ALMs)を対象とする音声ジェイルブレイクについて検討する。
我々は、プロンプト、タスク、さらにはベースオーディオサンプルをまたいで一般化する対向的摂動を構築する。
我々は、ALMがこれらの音声相手の例をどう解釈するかを分析し、知覚不能な一対一の有毒な音声を符号化する。
論文 参考訳(メタデータ) (2025-02-02T08:36:23Z) - Who Can Withstand Chat-Audio Attacks? An Evaluation Benchmark for Large Audio-Language Models [60.72029578488467]
アドリラルオーディオ攻撃は、人間と機械の相互作用における大きなオーディオ言語モデル(LALM)の利用の増加に重大な脅威をもたらす。
本稿では,4種類の音声攻撃を含むChat-Audio Attacksベンチマークを紹介する。
Gemini-1.5-Pro, GPT-4oなど, 音声対話機能を有する6つの最先端LALMの評価を行った。
論文 参考訳(メタデータ) (2024-11-22T10:30:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。