Fugu-MT 論文翻訳(概要): Audio Is the Achilles' Heel: Red Teaming Audio Large Multimodal Models

論文の概要: Audio Is the Achilles' Heel: Red Teaming Audio Large Multimodal Models

arxiv url: http://arxiv.org/abs/2410.23861v1
Date: Thu, 31 Oct 2024 12:11:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.798112
Title: Audio Is the Achilles' Heel: Red Teaming Audio Large Multimodal Models
Title（参考訳）: オーディオはアキレス腱(動画)
Authors: Hao Yang, Lizhen Qu, Ehsan Shareghi, Gholamreza Haffari,
Abstract要約: 我々は、オープンソースのオーディオLMMが有害な音声質問に対して平均69.14%の攻撃成功率を被っていることを示す。 Gemini-1.5-Proの音声固有のジェイルブレイクは、有害なクエリベンチマークで70.67%の攻撃成功率を達成した。
参考スコア（独自算出の注目度）: 50.89022445197919
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Multimodal Models (LMMs) have demonstrated the ability to interact with humans under real-world conditions by combining Large Language Models (LLMs) and modality encoders to align multimodal information (visual and auditory) with text. However, such models raise new safety challenges of whether models that are safety-aligned on text also exhibit consistent safeguards for multimodal inputs. Despite recent safety-alignment research on vision LMMs, the safety of audio LMMs remains under-explored. In this work, we comprehensively red team the safety of five advanced audio LMMs under three settings: (i) harmful questions in both audio and text formats, (ii) harmful questions in text format accompanied by distracting non-speech audio, and (iii) speech-specific jailbreaks. Our results under these settings demonstrate that open-source audio LMMs suffer an average attack success rate of 69.14% on harmful audio questions, and exhibit safety vulnerabilities when distracted with non-speech audio noise. Our speech-specific jailbreaks on Gemini-1.5-Pro achieve an attack success rate of 70.67% on the harmful query benchmark. We provide insights on what could cause these reported safety-misalignments. Warning: this paper contains offensive examples.
Abstract（参考訳）: LMM(Large Multimodal Models)は,Large Language Models (LLM) とModality Encoderを組み合わせることで,実世界の環境下での人間との対話性を実証した。しかし、このようなモデルは、テキスト上で安全に整合したモデルが、マルチモーダル入力に対する一貫した安全保護を示すかどうかという新たな安全性上の課題を提起する。視覚LMMの安全性に関する最近の安全調整研究にもかかわらず、オーディオLMMの安全性は未調査のままである。本研究では,3つの設定の下で,5つの高度なオーディオLMMの安全性を総合的に検討する。 (i)音声とテキストの双方で有害な質問。 (二)非音声音声に気を散らしたテキスト形式の有害な質問、 (三) 弁論特有の脱獄。これらの条件下では、有害な音声質問に対して、オープンソースのオーディオLMMが69.14%の平均攻撃成功率に悩まされ、非音声音声ノイズに気を散らすと、安全性上の脆弱性が示される。 Gemini-1.5-Proの音声固有のジェイルブレイクは、有害なクエリベンチマークで70.67%の攻撃成功率を達成した。我々は、これらの報告された安全ミスの原因となるものについての洞察を提供する。注意:本論文は攻撃的な例を含む。

関連論文リスト

Multilingual and Multi-Accent Jailbreaking of Audio LLMs [19.5428160851918]
Multi-AudioJailは、マルチリンガルおよびマルチアクセントオーディオジェイルブレイクを利用する最初の体系的なフレームワークである。音の摂動が言語間音声学とどのように相互作用し、ジェイルブレイクの成功率を急上昇させるかを示す。クロスモーダル・ディフェンスの研究を促進するためにデータセットをリリースする予定です。
論文参考訳（メタデータ） (2025-04-01T18:12:23Z)
SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks [46.25325034315104]
大規模言語モデル(LLM)の安全性を評価するための詳細なベンチマーク SafeDialBench を提案する。具体的には,6つの安全次元を考慮した2階層型階層型安全分類法を設計し,22の対話シナリオの下で中国語と英語の双方で4000以上のマルチターン対話を生成する。特に,LLMの革新的なアセスメントフレームワークを構築し,安全でない情報を検出し,処理し,ジェイルブレイク攻撃時の一貫性を維持する。
論文参考訳（メタデータ） (2025-02-16T12:08:08Z)
"I am bad": Interpreting Stealthy, Universal and Robust Audio Jailbreaks in Audio-Language Models [0.9480364746270077]
本稿では,Audio-Language Models(ALMs)を対象とする音声ジェイルブレイクについて検討する。我々は、プロンプト、タスク、さらにはベースオーディオサンプルをまたいで一般化する対向的摂動を構築する。我々は、ALMがこれらの音声相手の例をどう解釈するかを分析し、知覚不能な一対一の有毒な音声を符号化する。
論文参考訳（メタデータ） (2025-02-02T08:36:23Z)
Tune In, Act Up: Exploring the Impact of Audio Modality-Specific Edits on Large Audio Language Models in Jailbreak [35.62727804915181]
本稿では,大規模オーディオ言語モデル(LALM)のジェイルブレイクに対する推測に,音声固有の編集がどのような影響を及ぼすかを検討する。音声編集ツールボックス(AET)を導入し、トーン調整、単語強調、ノイズ注入などのオーディオ・モダリティ編集を可能にする。また,様々なオーディオ編集の下で,最先端のLALMを広範囲に評価し,ロバスト性を評価する。
論文参考訳（メタデータ） (2025-01-23T15:51:38Z)
AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。 AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文参考訳（メタデータ） (2024-12-03T17:41:23Z)
IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves [64.46372846359694]
IDEATORは、ブラックボックスジェイルブレイク攻撃のための悪意のある画像テキストペアを自律的に生成する新しいジェイルブレイク手法である。最近リリースされたVLM11のベンチマーク結果から,安全性の整合性に大きなギャップがあることが判明した。例えば、GPT-4oで46.31%、Claude-3.5-Sonnetで19.65%のASRを達成した。
論文参考訳（メタデータ） (2024-10-29T07:15:56Z)
VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文参考訳（メタデータ） (2024-10-23T00:36:06Z)
Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。本稿では,Llama-AVSRを提案する。我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文参考訳（メタデータ） (2024-09-18T21:17:27Z)
Towards Probing Speech-Specific Risks in Large Multimodal Models: A Taxonomy, Benchmark, and Insights [50.89022445197919]
本研究は,8つのリスクカテゴリーを敵意(悪意的皮肉と脅し),悪意的模倣(年齢,性別,民族),ステレオタイプ的バイアス(年齢,性別,民族)を対象とする音声特異的リスク分類法を提案する。分類に基づいて,これらのリスクのカテゴリを検出するために,現在のLMM能力を評価するための小規模データセットを作成する。
論文参考訳（メタデータ） (2024-06-25T10:08:45Z)
SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models [34.557309967708406]
本研究では,このような命令追従型音声モデルの潜在的な脆弱性を,敵対的攻撃や脱獄に対して検討する。我々は、人間の関与なしに、ホワイトボックスとブラックボックスの攻撃設定の両方でジェイルブレイクSLMの逆例を生成するアルゴリズムを設計する。本モデルでは,発話指示による対話データに基づいて,音声質問応答タスクにおける最先端のパフォーマンスを達成し,安全性と有用性の両方の指標で80%以上をスコア付けした。
論文参考訳（メタデータ） (2024-05-14T04:51:23Z)
Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models [107.88745040504887]
マルチモーダル大言語モデル(MLLM)の無害アライメント問題について検討する。そこで本研究では,テキスト入力における悪意のある意図の有害性を隠蔽し,増幅する,HADESという新しいジェイルブレイク手法を提案する。実験の結果、HADESは既存のMLLMを効果的にジェイルブレイクし、LLaVA-1.5では90.26%、Gemini Pro Visionでは71.60%の攻撃成功率を達成した。
論文参考訳（メタデータ） (2024-03-14T18:24:55Z)
Identifying False Content and Hate Speech in Sinhala YouTube Videos by Analyzing the Audio [0.0]
本研究は、シンハラのYouTubeビデオにおける暴力や誤報の拡散を最小限に抑える方法を提案する。このアプローチでは、タイトルと記述をオーディオコンテンツと比較することにより、ビデオに偽情報が含まれているかどうかを評価する評価システムを開発する。
論文参考訳（メタデータ） (2024-01-30T08:08:34Z)
FigStep: Jailbreaking Large Vision-language Models via Typographic Visual Prompts [14.948652267916149]
大規模視覚言語モデル(VLM)に対するジェイルブレイクアルゴリズムであるFigStepを提案する。 FigStepはテキストに有害な指示を直接送る代わりに、タイポグラフィーによって有害なコンテンツを画像に変換する。 FigStepは10のトピックで500の有害なクエリに対して平均82.50%の攻撃成功率を達成することができる。
論文参考訳（メタデータ） (2023-11-09T18:59:11Z)
Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。我々は、意図しないシナリオと意図的なシナリオの2つを考えます。安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-10T09:44:06Z)
DeepSafety:Multi-level Audio-Text Feature Extraction and Fusion Approach for Violence Detection in Conversations [2.8038382295783943]
会話における言葉と発声の手がかりの選択は、個人の安全と犯罪防止のための自然言語データの不足した豊富な情報源を示す。本稿では,会話における暴力行為の程度を検出するために,多段階の特徴を抽出・融合する新たな情報融合手法を提案する。
論文参考訳（メタデータ） (2022-06-23T16:45:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。