論文の概要: Evaluating Robustness of Large Audio Language Models to Audio Injection: An Empirical Study
- arxiv url: http://arxiv.org/abs/2505.19598v1
- Date: Mon, 26 May 2025 07:08:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.23157
- Title: Evaluating Robustness of Large Audio Language Models to Audio Injection: An Empirical Study
- Title(参考訳): 大規模音声モデルの音響注入に対するロバスト性の評価 : 実証的研究
- Authors: Guanyu Hou, Jiaming He, Yinhang Zhou, Ji Guo, Yitong Qiao, Rui Zhang, Wenbo Jiang,
- Abstract要約: 本研究は4つの攻撃シナリオにまたがる5つのLALMを系統的に評価する。
単一のモデルはすべての攻撃タイプで他のモデルより一貫して優れています。
命令追従能力とロバスト性の間の負の相関は、命令に厳密に固執するモデルはより感受性が高いことを示唆している。
- 参考スコア(独自算出の注目度): 5.843063647136238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Audio-Language Models (LALMs) are increasingly deployed in real-world applications, yet their robustness against malicious audio injection attacks remains underexplored. This study systematically evaluates five leading LALMs across four attack scenarios: Audio Interference Attack, Instruction Following Attack, Context Injection Attack, and Judgment Hijacking Attack. Using metrics like Defense Success Rate, Context Robustness Score, and Judgment Robustness Index, their vulnerabilities and resilience were quantitatively assessed. Experimental results reveal significant performance disparities among models; no single model consistently outperforms others across all attack types. The position of malicious content critically influences attack effectiveness, particularly when placed at the beginning of sequences. A negative correlation between instruction-following capability and robustness suggests models adhering strictly to instructions may be more susceptible, contrasting with greater resistance by safety-aligned models. Additionally, system prompts show mixed effectiveness, indicating the need for tailored strategies. This work introduces a benchmark framework and highlights the importance of integrating robustness into training pipelines. Findings emphasize developing multi-modal defenses and architectural designs that decouple capability from susceptibility for secure LALMs deployment.
- Abstract(参考訳): 大規模オーディオランゲージモデル(LALM)は、現実のアプリケーションにますます多くデプロイされているが、悪意のあるオーディオインジェクション攻撃に対する堅牢性はまだ未調査である。
本研究は, 音声干渉攻撃, 指示追従攻撃, コンテキスト注入攻撃, ジャッジメントハイジャック攻撃の4つの攻撃シナリオにおいて, 5つの主要なLALMを系統的に評価する。
Defense Success Rate、Context Robustness Score、Judgment Robustness Indexといったメトリクスを使用して、その脆弱性とレジリエンスを定量的に評価した。
実験結果から、モデル間での大幅なパフォーマンス格差が明らかとなった。
悪意のあるコンテンツの位置は、特にシーケンスの先頭に位置する場合、攻撃の有効性に重大な影響を及ぼす。
命令追従能力とロバスト性の間の負の相関は、命令に厳密に固執するモデルはより感受性が高く、安全に整合したモデルによる抵抗が大きいことを示唆している。
さらに、システムプロンプトは複雑な効果を示し、調整された戦略の必要性を示している。
この作業では、ベンチマークフレームワークを導入し、トレーニングパイプラインに堅牢性を統合することの重要性を強調している。
発見は、LALMの安全な配備の感受性から能力を分離するマルチモーダルディフェンスとアーキテクチャ設計の開発を強調している。
関連論文リスト
- Investigating the Vulnerability of LLM-as-a-Judge Architectures to Prompt-Injection Attacks [0.0]
大規模言語モデル (LLM) は、機械生成テキストの品質を評価するための評価器 (LLM-as-a-Judge) としてますます採用されている。
本稿では,LPM-as-a-Judgeアーキテクチャの早期注入攻撃に対する脆弱性について検討する。
論文 参考訳(メタデータ) (2025-05-19T16:51:12Z) - Adversarial Training for Defense Against Label Poisoning Attacks [53.893792844055106]
ラベル中毒攻撃は機械学習モデルに重大なリスクをもたらす。
本稿では,これらの脅威に対処するために,サポートベクトルマシン(SVM)に基づく新たな対角的防御戦略を提案する。
提案手法は, 様々なモデルアーキテクチャに対応し, カーネルSVMを用いた予測勾配降下アルゴリズムを用いて, 対向学習を行う。
論文 参考訳(メタデータ) (2025-02-24T13:03:19Z) - A Framework for Evaluating Vision-Language Model Safety: Building Trust in AI for Public Sector Applications [0.0]
本稿では,視覚言語モデル(VLM)における敵対的リスクを定量化する新しい枠組みを提案する。
我々は,ガウス,ソルト・アンド・ペッパー,均一雑音下でのモデル性能を解析し,誤分類しきい値を特定し,脆弱な領域を目立たせる複合ノイズパッチやサリエンシパターンを導出する。
本稿では,ランダムノイズと敵攻撃の影響を組み合わせた新しい脆弱性スコアを提案し,モデルロバスト性を評価するための総合的指標を提供する。
論文 参考訳(メタデータ) (2025-02-22T21:33:26Z) - Adversarial Robustness through Dynamic Ensemble Learning [0.0]
敵対的攻撃は、事前訓練された言語モデル(PLM)の信頼性に重大な脅威をもたらす
本稿では,このような攻撃に対するPLMの堅牢性を高めるための新しいスキームであるDynamic Ensemble Learning (ARDEL) による対逆ロバスト性について述べる。
論文 参考訳(メタデータ) (2024-12-20T05:36:19Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Robust Safety Classifier for Large Language Models: Adversarial Prompt
Shield [7.5520641322945785]
大規模言語モデルの安全性は、敵の攻撃に対する脆弱性のため、依然として重要な懸念事項である。
本稿では,検出精度を向上し,対向プロンプトに対するレジリエンスを示す軽量モデルであるAdversarial Prompt Shield(APS)を紹介する。
また、対戦型トレーニングデータセットを自律的に生成するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2023-10-31T22:22:10Z) - Interpretable and Effective Reinforcement Learning for Attacking against
Graph-based Rumor Detection [12.726403718158082]
ソーシャルネットワークは噂によって汚染され、機械学習モデルによって検出される。
ある種の脆弱性は、グラフへの依存と疑わしいランキングによるものである。
ブラックボックス検出器を用いて、強化学習が効果的かつ解釈可能な攻撃ポリシーを学習できるように、依存関係をキャプチャする機能を設計する。
論文 参考訳(メタデータ) (2022-01-15T10:06:29Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。