論文の概要: SoundBreak: A Systematic Study of Audio-Only Adversarial Attacks on Trimodal Models
- arxiv url: http://arxiv.org/abs/2601.16231v1
- Date: Tue, 20 Jan 2026 18:53:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.351494
- Title: SoundBreak: A Systematic Study of Audio-Only Adversarial Attacks on Trimodal Models
- Title(参考訳): SoundBreak:三モーダルモデルにおける音声のみの敵対的攻撃の体系的研究
- Authors: Aafiya Hussain, Gaurav Srivastava, Alvi Ishmam, Zaber Hakim, Chris Thomas,
- Abstract要約: 音声、視覚、言語を統合するマルチモーダル基礎モデルは、推論および生成タスクにおいて強力なパフォーマンスを達成する。
我々は,3モーダルな音声・ビデオ言語モデルに対する,音声のみの敵対的攻撃という,現実的で過小評価された脅威モデルについて検討する。
音声のみの摂動は重度のマルチモーダル障害を引き起こし、最大96%の攻撃成功率を達成できることを示す。
- 参考スコア(独自算出の注目度): 1.7424550973815194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal foundation models that integrate audio, vision, and language achieve strong performance on reasoning and generation tasks, yet their robustness to adversarial manipulation remains poorly understood. We study a realistic and underexplored threat model: untargeted, audio-only adversarial attacks on trimodal audio-video-language models. We analyze six complementary attack objectives that target different stages of multimodal processing, including audio encoder representations, cross-modal attention, hidden states, and output likelihoods. Across three state-of-the-art models and multiple benchmarks, we show that audio-only perturbations can induce severe multimodal failures, achieving up to 96% attack success rate. We further show that attacks can be successful at low perceptual distortions (LPIPS <= 0.08, SI-SNR >= 0) and benefit more from extended optimization than increased data scale. Transferability across models and encoders remains limited, while speech recognition systems such as Whisper primarily respond to perturbation magnitude, achieving >97% attack success under severe distortion. These results expose a previously overlooked single-modality attack surface in multimodal systems and motivate defenses that enforce cross-modal consistency.
- Abstract(参考訳): 音声・視覚・言語を統合したマルチモーダル基礎モデルは推論・生成タスクにおいて高い性能を発揮するが、敵の操作に対する頑健さはいまだに理解されていない。
我々は,3モーダルな音声-ビデオ言語モデルに対する,ターゲットのない,音声のみの敵対的攻撃という,現実的で過小評価された脅威モデルについて検討する。
音声エンコーダ表現,クロスモーダルアテンション,隠蔽状態,出力可能性など,マルチモーダル処理の異なる段階をターゲットにした6つの補完攻撃目標を分析した。
3つの最先端モデルと複数のベンチマークで、音声のみの摂動は重度のマルチモーダル障害を引き起こし、最大96%の攻撃成功率を達成できることを示す。
さらに、攻撃は低知覚歪み(LPIPS <= 0.08, SI-SNR >= 0)で成功し、データスケールの増加よりも拡張最適化の恩恵を受けることを示す。
モデルとエンコーダ間のトランスファービリティは制限されているが、Whisperのような音声認識システムは摂動のマグニチュードに主に反応し、強歪み下では97%の攻撃成功を達成している。
これらの結果は、以前見過ごされた単一モダリティ攻撃面をマルチモーダルシステムで公開し、クロスモーダル一貫性を強制するモチベート防衛を推進した。
関連論文リスト
- Breaking Audio Large Language Models by Attacking Only the Encoder: A Universal Targeted Latent-Space Audio Attack [0.0]
本稿では,音声モデルに対する汎用的な潜在空間攻撃を提案する。
我々のアプローチは、入力や話者をまたいで一般化し、言語モデルへのアクセスを必要としない普遍的な摂動を学習する。
論文 参考訳(メタデータ) (2025-12-29T21:56:13Z) - Beyond Text: Multimodal Jailbreaking of Vision-Language and Audio Models through Perceptually Simple Transformations [0.0]
MLLM(Multimodal large language model)は目覚ましい進歩を遂げているが、敵の攻撃に対して致命的な脆弱さを保っている。
本稿では,視覚言語モデルと音声言語モデルの両方を対象として,マルチモーダルジェイルブレイクの体系的研究を行う。
評価は3つのハイリスク安全性カテゴリで1,900件の対人プロンプトにまたがる。
論文 参考訳(メタデータ) (2025-10-23T05:16:33Z) - Backdoor Attacks Against Speech Language Models [63.07317091368079]
本研究は,音声認識モデルに対する音声バックドア攻撃に関する最初の体系的研究である。
4つの音声エンコーダと3つのデータセットにまたがってその効果を実証し、4つのタスクをカバーした。
汚染された事前訓練エンコーダの脅威を軽減できる微調整型防御法を提案する。
論文 参考訳(メタデータ) (2025-10-01T17:45:04Z) - Measuring the Robustness of Audio Deepfake Detectors [59.09338266364506]
この研究は、16の一般的な汚職に対する10のオーディオディープフェイク検出モデルの頑健さを体系的に評価する。
従来のディープラーニングモデルと最先端の基礎モデルの両方を用いて、4つのユニークな観察を行う。
論文 参考訳(メタデータ) (2025-03-21T23:21:17Z) - "I am bad": Interpreting Stealthy, Universal and Robust Audio Jailbreaks in Audio-Language Models [0.9480364746270077]
本稿では,Audio-Language Models(ALMs)を対象とする音声ジェイルブレイクについて検討する。
我々は、プロンプト、タスク、さらにはベースオーディオサンプルをまたいで一般化する対向的摂動を構築する。
我々は、ALMがこれらの音声相手の例をどう解釈するかを分析し、知覚不能な一対一の有毒な音声を符号化する。
論文 参考訳(メタデータ) (2025-02-02T08:36:23Z) - Multi-granular Adversarial Attacks against Black-box Neural Ranking Models [111.58315434849047]
多粒性摂動を取り入れた高品質な逆数例を作成する。
我々は,多粒体攻撃を逐次的意思決定プロセスに変換する。
本手法は,攻撃の有効性と非受容性の両方において,一般的なベースラインを超えている。
論文 参考訳(メタデータ) (2024-04-02T02:08:29Z) - Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual
Active Speaker Detection [88.74863771919445]
我々は、音声のみ、視覚のみ、および音声-視覚的敵対攻撃下でのAVASDモデルの脆弱性を明らかにする。
また,攻撃者が現実的な相手を見つけるのを困難にするため,新たな音声・視覚的相互作用損失(AVIL)を提案する。
論文 参考訳(メタデータ) (2022-10-03T08:10:12Z) - Can audio-visual integration strengthen robustness under multimodal
attacks? [47.791552254215745]
マルチモーダルな敵対攻撃に対する視聴覚イベント認識タスクをプロキシとして使用し、視聴覚学習の堅牢性を調査します。
我々は、音声と視覚の統合が認識を強化するかどうかを調べるために、オーディオ、視覚、両方のモダリティを攻撃します。
攻撃下のマルチモーダル相互作用を解釈するために,弱教師付き音源定位モデルを学ぶ。
論文 参考訳(メタデータ) (2021-04-05T16:46:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。