論文の概要: Tune In, Act Up: Exploring the Impact of Audio Modality-Specific Edits on Large Audio Language Models in Jailbreak
- arxiv url: http://arxiv.org/abs/2501.13772v1
- Date: Thu, 23 Jan 2025 15:51:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:58:36.077441
- Title: Tune In, Act Up: Exploring the Impact of Audio Modality-Specific Edits on Large Audio Language Models in Jailbreak
- Title(参考訳): 映画『Tune In, Act Up: Exploring the impact of Audio Modality-Specific Edits on Large Audio Language Models in Jailbreak』
- Authors: Erjia Xiao, Hao Cheng, Jing Shao, Jinhao Duan, Kaidi Xu, Le Yang, Jindong Gu, Renjing Xu,
- Abstract要約: 本稿では,大規模オーディオ言語モデル(LALM)のジェイルブレイクに対する推測に,音声固有の編集がどのような影響を及ぼすかを検討する。
音声編集ツールボックス(AET)を導入し、トーン調整、単語強調、ノイズ注入などのオーディオ・モダリティ編集を可能にする。
また,様々なオーディオ編集の下で,最先端のLALMを広範囲に評価し,ロバスト性を評価する。
- 参考スコア(独自算出の注目度): 35.62727804915181
- License:
- Abstract: Large Language Models (LLMs) demonstrate remarkable zero-shot performance across various natural language processing tasks. The integration of multimodal encoders extends their capabilities, enabling the development of Multimodal Large Language Models that process vision, audio, and text. However, these capabilities also raise significant security concerns, as these models can be manipulated to generate harmful or inappropriate content through jailbreak. While extensive research explores the impact of modality-specific input edits on text-based LLMs and Large Vision-Language Models in jailbreak, the effects of audio-specific edits on Large Audio-Language Models (LALMs) remain underexplored. Hence, this paper addresses this gap by investigating how audio-specific edits influence LALMs inference regarding jailbreak. We introduce the Audio Editing Toolbox (AET), which enables audio-modality edits such as tone adjustment, word emphasis, and noise injection, and the Edited Audio Datasets (EADs), a comprehensive audio jailbreak benchmark. We also conduct extensive evaluations of state-of-the-art LALMs to assess their robustness under different audio edits. This work lays the groundwork for future explorations on audio-modality interactions in LALMs security.
- Abstract(参考訳): 大規模言語モデル (LLM) は、様々な自然言語処理タスクにおいて顕著なゼロショット性能を示す。
マルチモーダルエンコーダの統合により、視覚、音声、テキストを処理するマルチモーダル大規模言語モデルの開発が可能になる。
しかし、これらの機能は、ジェイルブレイクを通じて有害または不適切なコンテンツを生成するためにこれらのモデルを操作できるため、重大なセキュリティ上の懸念を引き起こす。
テキストベースのLLMとLarge Vision-Language Modelsに対するモダリティ特異的な入力編集の影響について広範な研究がなされている一方で、Large Audio-Language Models (LALM) に対するオーディオ固有編集の影響は未検討のままである。
そこで本稿では,このギャップを補うために,音声による編集がジェイルブレイクに関するLALMの推論にどのように影響するかを検討する。
音声編集ツールボックス (AET) を導入し, 音調調整, 単語強調, ノイズ注入などのオーディオ・モダリティの編集を可能にするとともに, 包括的なオーディオ・ジェイルブレイク・ベンチマークである編集音声データセット (EADs) も導入する。
また,様々なオーディオ編集の下で,最先端のLALMを広範囲に評価し,ロバスト性を評価する。
この研究は、LALMのセキュリティにおけるオーディオとモダリティの相互作用に関する将来の研究の基盤となる。
関連論文リスト
- Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models [0.9285295512807729]
AQA(Audio Question Answering)タスクには、オーディオイベント分類、オーディオキャプション、オープンエンド推論が含まれる。
LALMは一般的な音声理解では優れているが、時間的推論では限られている。
本稿では,音声時間的推論におけるこれらの課題と限界について述べる。
論文 参考訳(メタデータ) (2024-09-10T05:26:53Z) - Investigating Decoder-only Large Language Models for Speech-to-text Translation [39.17113782374464]
大規模言語モデル (LLM) は、様々なドメインにまたがる例外的な推論能力、一般化可能性、およびレイテンシで知られている。
我々は,LLMが直接符号化された音声表現を消費し,テキスト翻訳を生成することができるデコーダのみのアーキテクチャを提案する。
本モデルでは,プロプライエタリなデータを必要としないモデル間で,CoVoST 2およびFLEURSの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-03T14:42:49Z) - Understanding Sounds, Missing the Questions: The Challenge of Object Hallucination in Large Audio-Language Models [49.87432626548563]
本稿では,一般公開LALMの物体幻覚の程度を評価する手法を提案する。
以上の結果から,LALMは音声コンテンツの理解において,特別な音声キャプションモデルに匹敵するものであることが明らかとなった。
差別的質問に対するLALMの性能を高めるために,迅速なエンジニアリングの可能性を探る。
論文 参考訳(メタデータ) (2024-06-12T16:51:54Z) - AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations [1.2101820447447276]
近年,音声言語領域におけるマルチモーダル学習は大きな進歩を遂げている。
しかし、音声学習は、画像言語タスクと比較して、限られたデータや低品質のデータによって困難に直面している。
本手法は,音声クリップを自然言語ラベルと対応する音声信号処理操作で拡張することにより,音声キャプチャペアを体系的に生成する。
このスケーラブルな方法は、テキストおよびオーディオ関連モデルの高品質なトレーニングデータセットであるAudioSetMixを生成する。
論文 参考訳(メタデータ) (2024-05-17T21:08:58Z) - Qwen-Audio: Advancing Universal Audio Understanding via Unified
Large-Scale Audio-Language Models [98.34889301515412]
我々はQwen-Audioモデルを開発し、30以上のタスクと様々なオーディオタイプをカバーするために、事前学習を拡大することで制限に対処する。
Qwen-Audioは、タスク固有の微調整を必要とせずに、様々なベンチマークタスクで素晴らしいパフォーマンスを実現している。
さらにQwen-Audio-Chatを開発し、様々なオーディオやテキスト入力からの入力を可能にし、マルチターン対話を可能にし、様々なオーディオ中心のシナリオをサポートする。
論文 参考訳(メタデータ) (2023-11-14T05:34:50Z) - AudioChatLlama: Towards General-Purpose Speech Abilities for LLMs [27.122094554340194]
我々は、エンドツーエンドの汎用音声処理と推論能力を備えた命令調整型Llama-2モデルを拡張する。
結果、AudioChatLlamaと呼ばれるエンドツーエンドモデルは、音声プロンプトをテキストの代替として利用し、会話を維持することができる。
論文 参考訳(メタデータ) (2023-11-12T06:56:14Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [65.69648099999439]
Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
音声認識, 理解, 生成のための新しい音声・テキストGPTベースのLLMであるLauraGPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Prompting Large Language Models with Speech Recognition Abilities [31.77576008965215]
我々は,音声認識を行うための小型オーディオエンコーダを直接取り付けることで,大規模言語モデルの能力を拡張した。
MultilingualSpeechの実験では、コンバータエンコーダをオープンソースのLLaMA-7Bに組み込むことで、モノリンガルベースラインを18%上回る結果となった。
論文 参考訳(メタデータ) (2023-07-21T08:39:15Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。