論文の概要: AdvWave: Stealthy Adversarial Jailbreak Attack against Large Audio-Language Models
- arxiv url: http://arxiv.org/abs/2412.08608v1
- Date: Wed, 11 Dec 2024 18:30:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:02:46.218309
- Title: AdvWave: Stealthy Adversarial Jailbreak Attack against Large Audio-Language Models
- Title(参考訳): AdvWave:大規模オーディオランゲージモデルに対する敵対的ジェイルブレイク攻撃
- Authors: Mintong Kang, Chejian Xu, Bo Li,
- Abstract要約: 大規模オーディオ誘導モデル(LALM)の最近の進歩は、音声によるユーザインタラクションを可能にしている。
しかし、LALMの安全性を確保することは、社会的な懸念やAI規制を引き起こすリスクのあるアウトプットを防ぐために不可欠である。
- 参考スコア(独自算出の注目度): 13.807596637437808
- License:
- Abstract: Recent advancements in large audio-language models (LALMs) have enabled speech-based user interactions, significantly enhancing user experience and accelerating the deployment of LALMs in real-world applications. However, ensuring the safety of LALMs is crucial to prevent risky outputs that may raise societal concerns or violate AI regulations. Despite the importance of this issue, research on jailbreaking LALMs remains limited due to their recent emergence and the additional technical challenges they present compared to attacks on DNN-based audio models. Specifically, the audio encoders in LALMs, which involve discretization operations, often lead to gradient shattering, hindering the effectiveness of attacks relying on gradient-based optimizations. The behavioral variability of LALMs further complicates the identification of effective (adversarial) optimization targets. Moreover, enforcing stealthiness constraints on adversarial audio waveforms introduces a reduced, non-convex feasible solution space, further intensifying the challenges of the optimization process. To overcome these challenges, we develop AdvWave, the first jailbreak framework against LALMs. We propose a dual-phase optimization method that addresses gradient shattering, enabling effective end-to-end gradient-based optimization. Additionally, we develop an adaptive adversarial target search algorithm that dynamically adjusts the adversarial optimization target based on the response patterns of LALMs for specific queries. To ensure that adversarial audio remains perceptually natural to human listeners, we design a classifier-guided optimization approach that generates adversarial noise resembling common urban sounds. Extensive evaluations on multiple advanced LALMs demonstrate that AdvWave outperforms baseline methods, achieving a 40% higher average jailbreak attack success rate.
- Abstract(参考訳): 大規模音声言語モデル(LALM)の最近の進歩により、音声ベースのユーザインタラクションが実現され、ユーザエクスペリエンスが大幅に向上し、現実のアプリケーションにおけるLALMの展開が加速された。
しかし、LALMの安全性を確保することは、社会的な懸念やAI規制に違反している可能性のあるリスクのあるアウトプットを防ぐために不可欠である。
この問題の重要性にもかかわらず、最近出現したLALMのジェイルブレイクに関する研究は、DNNベースのオーディオモデルに対する攻撃と比較して、それらが提示する技術的課題によって制限されている。
具体的には、離散化操作を含むLALMのオーディオエンコーダは、しばしば勾配破壊を招き、勾配に基づく最適化に依存する攻撃の有効性を阻害する。
LALMの挙動変数は、効果的な(逆)最適化目標の同定をさらに複雑にする。
さらに、逆方向の音声波形にステルス性制約を課すことで、非凸実現可能な解空間が小さくなり、最適化プロセスの課題がさらに強化される。
これらの課題を克服するために,最初のLALMに対するジェイルブレイクフレームワークであるAdvWaveを開発した。
本稿では,勾配破砕に対処する2相最適化手法を提案する。
さらに,特定のクエリに対するLALMの応答パターンに基づいて,適応的対向目標探索アルゴリズムを開発した。
人間の聴取者にとって逆方向の音声が知覚的に自然であることを保証するため,一般都市音に類似した逆方向の雑音を生成する分類器誘導最適化手法を設計する。
複数の先進的なLALMに対する広範囲な評価は、AdvWaveがベースライン手法より優れ、平均的ジェイルブレイク攻撃の成功率が40%高いことを証明している。
関連論文リスト
- PEARL: Towards Permutation-Resilient LLMs [29.55886726376898]
大規模言語モデル(LLM)のインコンテキスト学習(ICL)機能により、提供されたデモを使って困難なタスクを実行できる。
ICLはデモの順序に非常に敏感であり、予測の不安定性につながる。
本稿では,この脆弱性を利用してLLaMA-3の80%近い成功率を達成する自然攻撃を設計できることを示す。
論文 参考訳(メタデータ) (2025-02-20T15:07:02Z) - CAMEL: Continuous Action Masking Enabled by Large Language Models for Reinforcement Learning [3.602902292270654]
連続行動空間における強化学習(RL)は、非効率な探索や準最適解への収束のような永続的な課題に遭遇する。
我々は,LLM生成した準最適ポリシーをRLトレーニングパイプラインに統合する新しいフレームワークであるCAMELを提案する。
論文 参考訳(メタデータ) (2025-02-17T15:22:19Z) - Adversarial Reasoning at Jailbreaking Time [49.70772424278124]
テスト時間計算による自動ジェイルブレイクに対する逆推論手法を開発した。
我々のアプローチは、LSMの脆弱性を理解するための新しいパラダイムを導入し、より堅牢で信頼性の高いAIシステムの開発の基礎を築いた。
論文 参考訳(メタデータ) (2025-02-03T18:59:01Z) - GASP: Efficient Black-Box Generation of Adversarial Suffixes for Jailbreaking LLMs [3.096869664709865]
本稿では,GASP(Generative Adversarial Suffix Prompter)を提案する。
実験の結果、GASPは自然な脱獄プロンプトを生成し、攻撃成功率を大幅に改善し、トレーニング時間を短縮し、推論速度を加速できることがわかった。
論文 参考訳(メタデータ) (2024-11-21T14:00:01Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - QROA: A Black-Box Query-Response Optimization Attack on LLMs [2.7624021966289605]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を持っている。
本研究は,問合せのみの相互作用を通じてLCMを利用する最適化戦略であるクエリ応答最適化攻撃(QROA)を紹介する。
論文 参考訳(メタデータ) (2024-06-04T07:27:36Z) - LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。
本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文 参考訳(メタデータ) (2024-05-30T06:24:14Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。