論文の概要: Codec-Robust Attacks on Audio LLMs
- arxiv url: http://arxiv.org/abs/2605.20519v2
- Date: Thu, 21 May 2026 17:49:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 14:44:53.704453
- Title: Codec-Robust Attacks on Audio LLMs
- Title(参考訳): オーディオLLMにおけるコーデック・ロバスト攻撃
- Authors: Jaechul Roh, Jean-Philippe Monteuuis, Jonathan Petit, Amir Houmansadr,
- Abstract要約: オーディオ大言語モデル(Audio LLMs)に対する以前の攻撃は、慎重に構築された波形の摂動が敵の出力を強制することを示した。
我々は、音声波形を直接摂動するのではなく、ニューラルオーディオの連続潜時空間における摂動を最適化するCodecAttackを紹介した。
本稿では,波形の摂動を排除した圧縮チャネルが,その潜在空間で発生する摂動を伝送することを示す。
- 参考スコア(独自算出の注目度): 18.55189632292067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior attacks on Audio Large Language Models (Audio LLMs) demonstrated that carefully crafted waveform-domain perturbations can force targeted adversarial outputs. As a defense mechanism against these attacks, real-world codec compression preprocessing has been studied to both detect and remove the perturbations. Yet no existing attack has demonstrated robustness against these compressions. We introduce CodecAttack, which optimizes a perturbation in a neural audio codec's continuous latent space rather than directly perturbing the audio waveform. We show that the codec's compression channel, which discards waveform perturbations, transmits perturbations crafted in its own latent space. To further harden the attack across real-world compression channels, we apply multi-bitrate straight-through Expectation-over-Transformation (EoT), all without modifying the target model. Across three realistic Audio LLM deployment scenarios and three target models, CodecAttack achieves an average 85.5% target-substring attack success rate (ASR) on Opus at moderate bitrates, while the waveform baseline trained with identical EoT hardening does not exceed 26% at any bitrate. The attack transfers to held-out codecs, reaching up to 100% ASR on MP3 and 84% on AAC-LC without retraining. A per-band energy analysis shows that the latent perturbation concentrates below 4kHz, exactly where codecs allocate the most bits, while the waveform baseline spreads into higher frequencies that codecs discard. These results demonstrate that lossy compression is not a reliable defense against adversarial audio and that codec-aware attacks pose a practical threat to deployed Audio LLM systems.
- Abstract(参考訳): オーディオ大言語モデル(Audio LLMs)に対する以前の攻撃は、慎重に構築された波形領域の摂動がターゲットの敵の出力を強制することを示した。
これらの攻撃に対する防御機構として、実世界のコーデック圧縮前処理が摂動を検知・除去するために研究されている。
しかし、これらの圧縮に対してロバスト性を示す既存の攻撃は行われていない。
我々は,ニューラルオーディオコーデックの連続潜時空間における摂動を直接摂動するのではなく,摂動を最適化するCodecAttackを紹介する。
コーデックの圧縮チャネルは波形の摂動を排除し, 自在な空間で発生する摂動を伝送する。
実世界の圧縮チャネルをまたいだ攻撃をさらに強化するために、ターゲットモデルを変更することなく、マルチビットレートのストレートスルー・コンプリート・オーバー・トランスフォーメーション(EoT)を適用する。
3つの現実的なオーディオLLM展開シナリオと3つのターゲットモデルの中で、CodecAttackは平均85.5%のターゲット・サブストリング攻撃成功率(ASR)を適度なビットレートで達成し、同じEoT硬化でトレーニングされた波形ベースラインはビットレートで26%を超えない。
攻撃はホールドアウトコーデックに転送され、MP3では100%のASR、AAC-LCでは84%にリトレーニングなしで到達した。
バンドごとのエネルギー分析では、遅延摂動は4kHz以下に集中しており、コーデックが最も多くのビットを割り当てているのに対して、波形ベースラインはコーデックが破棄する高い周波数に広がる。
これらの結果から,コーデック・アウェア・アタックはAudio LLMシステムに実用的脅威をもたらすことが示唆された。
関連論文リスト
- CATRF: Codec-Adaptive TriPlane Radiance Fields for Volumetric Content Delivery [17.043293098328743]
暗黙のボリューム表現はモデルのサイズを減少させるが、2Dビデオに到達するためには注意深くコーディングする必要がある。
平面フレンドリーキャンバスのための標準コーデシン・ザ・ループフレームワークであるCATRFを提案する。
その結果,低ビットレートで圧縮耐性の容積表現への実践的な道のりが浮かび上がった。
論文 参考訳(メタデータ) (2026-05-18T08:42:57Z) - Latent-Mark: An Audio Watermark Robust to Neural Resynthesis [62.09761127079914]
Latent-Markはセマンティック圧縮に耐えられるように設計された最初のゼロビットオーディオ透かしフレームワークである。
私たちの重要な洞察は、エンコード-デコードプロセスに対する堅牢性は、不変の潜在空間に透かしを埋め込む必要があるということです。
我々の研究は、ますます複雑で多様な生成歪みをまたいで整合性を維持することができる普遍的な透かしフレームワークに、将来の研究をインスピレーションを与えます。
論文 参考訳(メタデータ) (2026-03-05T15:51:09Z) - S-PRESSO: Ultra Low Bitrate Sound Effect Compression With Diffusion Autoencoders And Offline Quantization [24.710418261668888]
我々は,48kHzの音響効果圧縮モデルであるS-PRESSOについて述べる。
我々のモデルは、遅延エンコーダが学習した圧縮オーディオ埋め込みを復号するために、事前訓練された潜時拡散モデルに依存している。
S-PRESSOは、音質、音響的類似性、再現性の両方において、連続的および離散的ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2026-02-16T10:28:38Z) - UniSRCodec: Unified and Low-Bitrate Single Codebook Codec with Sub-Band Reconstruction [16.235083704438313]
ニューラルオーディオコーデック(NAC)は、コンパクトな圧縮と再構成を実行することで送信オーバーヘッドを低減することができる。
既存のNACは、マルチコードブックとシングルコードブックコーデックの2つのカテゴリに分けられる。
提案するUniSRCodecは,高サンプリングレート,低帯域幅,高忠実度,統一性をサポート可能なシングルコードブックである。
論文 参考訳(メタデータ) (2026-01-06T07:20:05Z) - FLaTEC: Frequency-Disentangled Latent Triplanes for Efficient Compression of LiDAR Point Clouds [52.997038111673966]
FLaTECは、圧縮率の高いフルスキャンの圧縮を可能にする周波数対応圧縮モデルである。
ボキセル化埋め込みを三面体表現に変換することで、空間性、計算コスト、ストレージ要件を低減する。
提案手法は,最先端の速度歪み性能を実現し,標準コーデックのBDレートを78%,94%向上させる。
論文 参考訳(メタデータ) (2025-11-25T08:37:49Z) - FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via Causal Distillation [27.32235541083431]
FocalCodec-Streamは、音声を1つのバイナリコードブックに0.55から0.80kbpsで圧縮し、理論的な遅延は80msである。
実験によると、FocalCodec-Streamは既存のストリーム可能なコーデックを同等の性能で上回っている。
論文 参考訳(メタデータ) (2025-09-19T17:57:13Z) - Towards Generalized Source Tracing for Codec-Based Deepfake Speech [52.68106957822706]
本稿では,意味的特徴符号化にWhisperを,音響的特徴符号化にAudioMAEにWav2vec2を併用したSemantic-Acoustic Source Tracing Network(SASTNet)を紹介する。
提案したSASTNetは,CodecFake+データセットのCoSGテストセット上での最先端性能を実現し,信頼性の高いソーストレースの有効性を実証する。
論文 参考訳(メタデータ) (2025-06-08T21:36:10Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。