論文の概要: Audio Is the Achilles' Heel: Red Teaming Audio Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2410.23861v1
- Date: Thu, 31 Oct 2024 12:11:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:00:47.494694
- Title: Audio Is the Achilles' Heel: Red Teaming Audio Large Multimodal Models
- Title(参考訳): オーディオはアキレス腱(動画)
- Authors: Hao Yang, Lizhen Qu, Ehsan Shareghi, Gholamreza Haffari,
- Abstract要約: 我々は、オープンソースのオーディオLMMが有害な音声質問に対して平均69.14%の攻撃成功率を被っていることを示す。
Gemini-1.5-Proの音声固有のジェイルブレイクは、有害なクエリベンチマークで70.67%の攻撃成功率を達成した。
- 参考スコア(独自算出の注目度): 50.89022445197919
- License:
- Abstract: Large Multimodal Models (LMMs) have demonstrated the ability to interact with humans under real-world conditions by combining Large Language Models (LLMs) and modality encoders to align multimodal information (visual and auditory) with text. However, such models raise new safety challenges of whether models that are safety-aligned on text also exhibit consistent safeguards for multimodal inputs. Despite recent safety-alignment research on vision LMMs, the safety of audio LMMs remains under-explored. In this work, we comprehensively red team the safety of five advanced audio LMMs under three settings: (i) harmful questions in both audio and text formats, (ii) harmful questions in text format accompanied by distracting non-speech audio, and (iii) speech-specific jailbreaks. Our results under these settings demonstrate that open-source audio LMMs suffer an average attack success rate of 69.14% on harmful audio questions, and exhibit safety vulnerabilities when distracted with non-speech audio noise. Our speech-specific jailbreaks on Gemini-1.5-Pro achieve an attack success rate of 70.67% on the harmful query benchmark. We provide insights on what could cause these reported safety-misalignments. Warning: this paper contains offensive examples.
- Abstract(参考訳): LMM(Large Multimodal Models)は,Large Language Models (LLM) とModality Encoderを組み合わせることで,実世界の環境下での人間との対話性を実証した。
しかし、このようなモデルは、テキスト上で安全に整合したモデルが、マルチモーダル入力に対する一貫した安全保護を示すかどうかという新たな安全性上の課題を提起する。
視覚LMMの安全性に関する最近の安全調整研究にもかかわらず、オーディオLMMの安全性は未調査のままである。
本研究では,3つの設定の下で,5つの高度なオーディオLMMの安全性を総合的に検討する。
(i)音声とテキストの双方で有害な質問。
(二)非音声音声に気を散らしたテキスト形式の有害な質問、
(三) 弁論特有の脱獄。
これらの条件下では、有害な音声質問に対して、オープンソースのオーディオLMMが69.14%の平均攻撃成功率に悩まされ、非音声音声ノイズに気を散らすと、安全性上の脆弱性が示される。
Gemini-1.5-Proの音声固有のジェイルブレイクは、有害なクエリベンチマークで70.67%の攻撃成功率を達成した。
我々は、これらの報告された安全ミスの原因となるものについての洞察を提供する。
注意:本論文は攻撃的な例を含む。
関連論文リスト
- VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Towards Probing Speech-Specific Risks in Large Multimodal Models: A Taxonomy, Benchmark, and Insights [50.89022445197919]
本研究は,8つのリスクカテゴリーを敵意(悪意的皮肉と脅し),悪意的模倣(年齢,性別,民族),ステレオタイプ的バイアス(年齢,性別,民族)を対象とする音声特異的リスク分類法を提案する。
分類に基づいて,これらのリスクのカテゴリを検出するために,現在のLMM能力を評価するための小規模データセットを作成する。
論文 参考訳(メタデータ) (2024-06-25T10:08:45Z) - SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models [34.557309967708406]
本研究では,このような命令追従型音声モデルの潜在的な脆弱性を,敵対的攻撃や脱獄に対して検討する。
我々は、人間の関与なしに、ホワイトボックスとブラックボックスの攻撃設定の両方でジェイルブレイクSLMの逆例を生成するアルゴリズムを設計する。
本モデルでは,発話指示による対話データに基づいて,音声質問応答タスクにおける最先端のパフォーマンスを達成し,安全性と有用性の両方の指標で80%以上をスコア付けした。
論文 参考訳(メタデータ) (2024-05-14T04:51:23Z) - Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models [107.88745040504887]
マルチモーダル大言語モデル(MLLM)の無害アライメント問題について検討する。
そこで本研究では,テキスト入力における悪意のある意図の有害性を隠蔽し,増幅する,HADESという新しいジェイルブレイク手法を提案する。
実験の結果、HADESは既存のMLLMを効果的にジェイルブレイクし、LLaVA-1.5では90.26%、Gemini Pro Visionでは71.60%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-03-14T18:24:55Z) - Identifying False Content and Hate Speech in Sinhala YouTube Videos by
Analyzing the Audio [0.0]
本研究は、シンハラのYouTubeビデオにおける暴力や誤報の拡散を最小限に抑える方法を提案する。
このアプローチでは、タイトルと記述をオーディオコンテンツと比較することにより、ビデオに偽情報が含まれているかどうかを評価する評価システムを開発する。
論文 参考訳(メタデータ) (2024-01-30T08:08:34Z) - FigStep: Jailbreaking Large Vision-language Models via Typographic
Visual Prompts [14.948652267916149]
大規模視覚言語モデル(VLM)に対するジェイルブレイクアルゴリズムであるFigStepを提案する。
FigStepはテキストに有害な指示を直接送る代わりに、タイポグラフィーによって有害なコンテンツを画像に変換する。
FigStepは10のトピックで500の有害なクエリに対して平均82.50%の攻撃成功率を達成することができる。
論文 参考訳(メタデータ) (2023-11-09T18:59:11Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - DeepSafety:Multi-level Audio-Text Feature Extraction and Fusion Approach
for Violence Detection in Conversations [2.8038382295783943]
会話における言葉と発声の手がかりの選択は、個人の安全と犯罪防止のための自然言語データの不足した豊富な情報源を示す。
本稿では,会話における暴力行為の程度を検出するために,多段階の特徴を抽出・融合する新たな情報融合手法を提案する。
論文 参考訳(メタデータ) (2022-06-23T16:45:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。