論文の概要: Audio Is the Achilles' Heel: Red Teaming Audio Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2410.23861v1
- Date: Thu, 31 Oct 2024 12:11:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:00:47.494694
- Title: Audio Is the Achilles' Heel: Red Teaming Audio Large Multimodal Models
- Title(参考訳): オーディオはアキレス腱(動画)
- Authors: Hao Yang, Lizhen Qu, Ehsan Shareghi, Gholamreza Haffari,
- Abstract要約: 我々は、オープンソースのオーディオLMMが有害な音声質問に対して平均69.14%の攻撃成功率を被っていることを示す。
Gemini-1.5-Proの音声固有のジェイルブレイクは、有害なクエリベンチマークで70.67%の攻撃成功率を達成した。
- 参考スコア(独自算出の注目度): 50.89022445197919
- License:
- Abstract: Large Multimodal Models (LMMs) have demonstrated the ability to interact with humans under real-world conditions by combining Large Language Models (LLMs) and modality encoders to align multimodal information (visual and auditory) with text. However, such models raise new safety challenges of whether models that are safety-aligned on text also exhibit consistent safeguards for multimodal inputs. Despite recent safety-alignment research on vision LMMs, the safety of audio LMMs remains under-explored. In this work, we comprehensively red team the safety of five advanced audio LMMs under three settings: (i) harmful questions in both audio and text formats, (ii) harmful questions in text format accompanied by distracting non-speech audio, and (iii) speech-specific jailbreaks. Our results under these settings demonstrate that open-source audio LMMs suffer an average attack success rate of 69.14% on harmful audio questions, and exhibit safety vulnerabilities when distracted with non-speech audio noise. Our speech-specific jailbreaks on Gemini-1.5-Pro achieve an attack success rate of 70.67% on the harmful query benchmark. We provide insights on what could cause these reported safety-misalignments. Warning: this paper contains offensive examples.
- Abstract(参考訳): LMM(Large Multimodal Models)は,Large Language Models (LLM) とModality Encoderを組み合わせることで,実世界の環境下での人間との対話性を実証した。
しかし、このようなモデルは、テキスト上で安全に整合したモデルが、マルチモーダル入力に対する一貫した安全保護を示すかどうかという新たな安全性上の課題を提起する。
視覚LMMの安全性に関する最近の安全調整研究にもかかわらず、オーディオLMMの安全性は未調査のままである。
本研究では,3つの設定の下で,5つの高度なオーディオLMMの安全性を総合的に検討する。
(i)音声とテキストの双方で有害な質問。
(二)非音声音声に気を散らしたテキスト形式の有害な質問、
(三) 弁論特有の脱獄。
これらの条件下では、有害な音声質問に対して、オープンソースのオーディオLMMが69.14%の平均攻撃成功率に悩まされ、非音声音声ノイズに気を散らすと、安全性上の脆弱性が示される。
Gemini-1.5-Proの音声固有のジェイルブレイクは、有害なクエリベンチマークで70.67%の攻撃成功率を達成した。
我々は、これらの報告された安全ミスの原因となるものについての洞察を提供する。
注意:本論文は攻撃的な例を含む。
関連論文リスト
- SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks [46.25325034315104]
大規模言語モデル(LLM)の安全性を評価するための詳細なベンチマーク SafeDialBench を提案する。
具体的には,6つの安全次元を考慮した2階層型階層型安全分類法を設計し,22の対話シナリオの下で中国語と英語の双方で4000以上のマルチターン対話を生成する。
特に,LLMの革新的なアセスメントフレームワークを構築し,安全でない情報を検出し,処理し,ジェイルブレイク攻撃時の一貫性を維持する。
論文 参考訳(メタデータ) (2025-02-16T12:08:08Z) - "I am bad": Interpreting Stealthy, Universal and Robust Audio Jailbreaks in Audio-Language Models [0.9480364746270077]
本稿では,Audio-Language Models(ALMs)を対象とする音声ジェイルブレイクについて検討する。
我々は、プロンプト、タスク、さらにはベースオーディオサンプルをまたいで一般化する対向的摂動を構築する。
我々は、ALMがこれらの音声相手の例をどう解釈するかを分析し、知覚不能な一対一の有毒な音声を符号化する。
論文 参考訳(メタデータ) (2025-02-02T08:36:23Z) - Tune In, Act Up: Exploring the Impact of Audio Modality-Specific Edits on Large Audio Language Models in Jailbreak [35.62727804915181]
本稿では,大規模オーディオ言語モデル(LALM)のジェイルブレイクに対する推測に,音声固有の編集がどのような影響を及ぼすかを検討する。
音声編集ツールボックス(AET)を導入し、トーン調整、単語強調、ノイズ注入などのオーディオ・モダリティ編集を可能にする。
また,様々なオーディオ編集の下で,最先端のLALMを広範囲に評価し,ロバスト性を評価する。
論文 参考訳(メタデータ) (2025-01-23T15:51:38Z) - AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。
提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。
AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文 参考訳(メタデータ) (2024-12-03T17:41:23Z) - VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models [34.557309967708406]
本研究では,このような命令追従型音声モデルの潜在的な脆弱性を,敵対的攻撃や脱獄に対して検討する。
我々は、人間の関与なしに、ホワイトボックスとブラックボックスの攻撃設定の両方でジェイルブレイクSLMの逆例を生成するアルゴリズムを設計する。
本モデルでは,発話指示による対話データに基づいて,音声質問応答タスクにおける最先端のパフォーマンスを達成し,安全性と有用性の両方の指標で80%以上をスコア付けした。
論文 参考訳(メタデータ) (2024-05-14T04:51:23Z) - Identifying False Content and Hate Speech in Sinhala YouTube Videos by
Analyzing the Audio [0.0]
本研究は、シンハラのYouTubeビデオにおける暴力や誤報の拡散を最小限に抑える方法を提案する。
このアプローチでは、タイトルと記述をオーディオコンテンツと比較することにより、ビデオに偽情報が含まれているかどうかを評価する評価システムを開発する。
論文 参考訳(メタデータ) (2024-01-30T08:08:34Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。