論文の概要: Benchmarking Gaslighting Attacks Against Speech Large Language Models
- arxiv url: http://arxiv.org/abs/2509.19858v1
- Date: Wed, 24 Sep 2025 07:57:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.728467
- Title: Benchmarking Gaslighting Attacks Against Speech Large Language Models
- Title(参考訳): 音声大言語モデルに対するガスライティング攻撃のベンチマーク
- Authors: Jinyang Wu, Bin Zhu, Xiandong Zou, Qiquan Zhang, Xu Fang, Pan Zhou,
- Abstract要約: 我々は、ガスライティング攻撃、戦略的に構築されたプロンプトを導入し、モデル推論を誤解させたり、覆ったり、歪んだりする。
具体的には、Anger、Cognitive Disruption、Sarcasm、Implicit、Professional Negationの5つの操作戦略を構築します。
我々のフレームワークは、無言の謝罪や拒絶など、パフォーマンス劣化と行動応答の両方を捉えています。
- 参考スコア(独自算出の注目度): 31.842578503471586
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As Speech Large Language Models (Speech LLMs) become increasingly integrated into voice-based applications, ensuring their robustness against manipulative or adversarial input becomes critical. Although prior work has studied adversarial attacks in text-based LLMs and vision-language models, the unique cognitive and perceptual challenges of speech-based interaction remain underexplored. In contrast, speech presents inherent ambiguity, continuity, and perceptual diversity, which make adversarial attacks more difficult to detect. In this paper, we introduce gaslighting attacks, strategically crafted prompts designed to mislead, override, or distort model reasoning as a means to evaluate the vulnerability of Speech LLMs. Specifically, we construct five manipulation strategies: Anger, Cognitive Disruption, Sarcasm, Implicit, and Professional Negation, designed to test model robustness across varied tasks. It is worth noting that our framework captures both performance degradation and behavioral responses, including unsolicited apologies and refusals, to diagnose different dimensions of susceptibility. Moreover, acoustic perturbation experiments are conducted to assess multi-modal robustness. To quantify model vulnerability, comprehensive evaluation across 5 Speech and multi-modal LLMs on over 10,000 test samples from 5 diverse datasets reveals an average accuracy drop of 24.3% under the five gaslighting attacks, indicating significant behavioral vulnerability. These findings highlight the need for more resilient and trustworthy speech-based AI systems.
- Abstract(参考訳): 音声大言語モデル (Speech LLMs) が音声ベースアプリケーションに統合されるにつれて、マニピュレータや逆入力に対する頑健性が重要になる。
テキストベースのLLMや視覚言語モデルにおける敵対的攻撃の研究は行われているが、音声による相互作用の認知的・知覚的課題はいまだ未解明のままである。
対照的に、音声は固有のあいまいさ、連続性、知覚の多様性を示し、敵の攻撃を検知しにくくする。
本稿では,音声LLMの脆弱性を評価する手段として,ガスライティング攻撃,戦略的に構築されたプロンプトを導入する。
具体的には、Anger、Cognitive Disruption、Sarcasm、Implicit、Professional Negationの5つの操作戦略を構築します。
当社のフレームワークは, 不可解な謝罪や拒絶など, パフォーマンス劣化と行動応答の両方を捉えて, 感受性の異なる側面を診断している点に注意が必要だ。
さらに,マルチモーダルロバスト性を評価するため,音響摂動実験を行った。
モデル脆弱性の定量化のために、5つの多様なデータセットから1万以上のサンプルを分析した結果、5つのガス灯攻撃で平均24.3%の精度低下が判明し、行動上の重大な脆弱性が示唆された。
これらの発見は、よりレジリエントで信頼性の高い音声ベースのAIシステムの必要性を浮き彫りにしている。
関連論文リスト
- Adversarial Attack Classification and Robustness Testing for Large Language Models for Code [19.47426054151291]
本研究では,自然言語入力における逆方向の摂動がLarge Language Models for Code(LLM4Code)に与える影響について検討する。
文字、単語、文レベルにおける摂動の影響を調べ、最も影響の大きい脆弱性を特定する。
論文 参考訳(メタデータ) (2025-06-09T17:02:29Z) - Evaluating Robustness of Large Audio Language Models to Audio Injection: An Empirical Study [5.843063647136238]
本研究は4つの攻撃シナリオにまたがる5つのLALMを系統的に評価する。
単一のモデルはすべての攻撃タイプで他のモデルより一貫して優れています。
命令追従能力とロバスト性の間の負の相関は、命令に厳密に固執するモデルはより感受性が高いことを示唆している。
論文 参考訳(メタデータ) (2025-05-26T07:08:38Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Who Can Withstand Chat-Audio Attacks? An Evaluation Benchmark for Large Audio-Language Models [60.72029578488467]
アドリラルオーディオ攻撃は、人間と機械の相互作用における大きなオーディオ言語モデル(LALM)の利用の増加に重大な脅威をもたらす。
本稿では,4種類の音声攻撃を含むChat-Audio Attacksベンチマークを紹介する。
Gemini-1.5-Pro, GPT-4oなど, 音声対話機能を有する6つの最先端LALMの評価を行った。
論文 参考訳(メタデータ) (2024-11-22T10:30:48Z) - Assessing Adversarial Robustness of Large Language Models: An Empirical Study [24.271839264950387]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、敵の攻撃に対する頑強さは依然として重要な問題である。
Llama, OPT, T5 など,主要なオープンソース LLM の脆弱性を露呈する,新しいホワイトボックス型攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:00:28Z) - TuBA: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning [63.481446315733145]
多言語大言語モデル(LLM)に対する言語間バックドア攻撃は未調査である。
本研究は, 教育指導データが有毒でない言語に対して, 教育指導データの有毒化がアウトプットに与える影響について検討した。
本手法は,mT5 や GPT-4o などのモデルにおいて,高い攻撃成功率を示し,12言語中7言語以上で90%以上を突破した。
論文 参考訳(メタデータ) (2024-04-30T14:43:57Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Characterizing the adversarial vulnerability of speech self-supervised
learning [95.03389072594243]
我々は,ゼロ知識とリミテッド知識の両方の敵からの攻撃の下で,そのようなパラダイムの敵対的脆弱性を調査するための最初の試みを行う。
実験結果から, SUPERB が提案するパラダイムは, 限られた知識を持つ敵に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2021-11-08T08:44:04Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。