Fugu-MT 論文翻訳(概要): Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models

論文の概要: Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models

arxiv url: http://arxiv.org/abs/2407.04482v1
Date: Fri, 5 Jul 2024 13:04:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-08 13:30:37.815839
Title: Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models
Title（参考訳）: ウィスパーの制御:音声基礎モデル制御のための普遍的音響対立攻撃
Authors: Vyas Raina, Mark Gales,
Abstract要約: 音声可能な基礎モデルは、適切なプロンプトを用いて自動音声認識以外のタスクを実行することができる。音声プロンプト付き大規模言語モデルの開発により、さらに大きな制御オプションが生まれる可能性がある。この柔軟性により、システムはモデル制御の敵攻撃の影響を受けやすいことが実証された。
参考スコア（独自算出の注目度）: 3.1511847280063696
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speech enabled foundation models, either in the form of flexible speech recognition based systems or audio-prompted large language models (LLMs), are becoming increasingly popular. One of the interesting aspects of these models is their ability to perform tasks other than automatic speech recognition (ASR) using an appropriate prompt. For example, the OpenAI Whisper model can perform both speech transcription and speech translation. With the development of audio-prompted LLMs there is the potential for even greater control options. In this work we demonstrate that with this greater flexibility the systems can be susceptible to model-control adversarial attacks. Without any access to the model prompt it is possible to modify the behaviour of the system by appropriately changing the audio input. To illustrate this risk, we demonstrate that it is possible to prepend a short universal adversarial acoustic segment to any input speech signal to override the prompt setting of an ASR foundation model. Specifically, we successfully use a universal adversarial acoustic segment to control Whisper to always perform speech translation, despite being set to perform speech transcription. Overall, this work demonstrates a new form of adversarial attack on multi-tasking speech enabled foundation models that needs to be considered prior to the deployment of this form of model.
Abstract（参考訳）: 音声認識に基づくフレキシブルな音声認識システムや、音声プロンプト付き大規模言語モデル(LLM)の形で、音声認識可能な基礎モデルがますます人気を博している。これらのモデルの興味深い側面の1つは、適切なプロンプトを用いて自動音声認識(ASR)以外のタスクを実行する能力である。例えば、OpenAI Whisperモデルは、音声の書き起こしと音声翻訳の両方を実行することができる。オーディオ・プロンプテッド LLM の開発により、さらに大きな制御オプションが生まれる可能性がある。この研究では、この柔軟性により、システムはモデル制御の敵攻撃の影響を受けやすいことを実証する。モデルへのアクセスがなければ、適切な音声入力を変更することでシステムの動作を変更することができる。このリスクを説明するために、入力音声信号に短い普遍的対角音響セグメントを付加して、ASR基礎モデルの迅速な設定を上書きできることを実証する。具体的には、音声の書き起こしを設定されているにもかかわらず、Whisperが常に音声翻訳を行うように制御するために、普遍的な対角音響セグメントをうまく利用した。全体として、本研究は、この形態のモデルが展開される前に考慮すべき基礎モデルに対して、新しい形態の敵攻撃を示すものである。

関連論文リスト

F-Actor: Controllable Conversational Behaviour in Full-Duplex Models [70.48189107402145]
典型的な学術的制約下で効率的に訓練できる,第1にオープンかつ命令追従型全段階会話音声モデルを提案する。我々のモデルは、大規模な事前訓練や多段階事前訓練に頼ることなく、わずか2000時間のデータしか必要としない。モデルとトレーニングコードの両方がリリースされ、制御可能なフルステージ音声システムに関する再現可能な研究が可能になる。
論文参考訳（メタデータ） (2026-01-16T14:25:57Z)
BatonVoice: An Operationalist Framework for Enhancing Controllable Speech Synthesis with Linguistic Intelligence from LLMs [84.59993864748195]
音声生成から命令理解を分離する「操作主義」に着想を得た新しいパラダイムを提案する。本稿では,LLMが導体として機能するフレームワークであるBatonVoiceを紹介し,ユーザの指示を理解する。別個のTSモデルである「オーケストラ」は、これらの特徴から音声を生成する。
論文参考訳（メタデータ） (2025-09-30T16:52:14Z)
Can we reconstruct a dysarthric voice with the large speech model Parler TTS? [11.547937373256921]
我々は、その状態が始まる前に、変形性スピーカーの声の近似を生成する。我々は,現在最先端の大規模音声モデルであるParler TTSが話者識別を維持しつつ,理解不能な音声を生成することができるかどうかを検討する。
論文参考訳（メタデータ） (2025-06-04T19:23:44Z)
Universal Acoustic Adversarial Attacks for Flexible Control of Speech-LLMs [6.8285467057172555]
音声のLLMに対するユニバーサルアコースティック・アタックについて検討する。 Qwen2-AudioとGranite-Speechには重大な脆弱性がある。これは、より堅牢なトレーニング戦略の必要性を強調し、敵の攻撃に対する抵抗を改善している。
論文参考訳（メタデータ） (2025-05-20T12:35:59Z)
Baichuan-Audio: A Unified Framework for End-to-End Speech Interaction [9.101978573666546]
Baichuan-Audioは、音声理解と生成をシームレスに統合するエンドツーエンドのオーディオ大言語モデルである。テキスト誘導されたアライメントされた音声生成機構を備え、理解能力と生成能力の両方でリアルタイムな音声対話を可能にする。
論文参考訳（メタデータ） (2025-02-24T15:16:34Z)
Incorporating Talker Identity Aids With Improving Speech Recognition in Adversarial Environments [0.2916558661202724]
音声認識と話者識別を共同で行うトランスフォーマーモデルを開発した。クリーンな条件下では,ジョイントモデルがWhisperと相容れない性能を示す。以上の結果から,音声認識と音声表現の統合により,対向条件下ではより堅牢なモデルが得られる可能性が示唆された。
論文参考訳（メタデータ） (2024-10-07T18:39:59Z)
SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。音声処理タスクを音声単位生成タスクに再構成する。提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文参考訳（メタデータ） (2024-08-23T13:00:10Z)
Muting Whisper: A Universal Acoustic Adversarial Attack on Speech Foundation Models [5.942307521138583]
モデル動作を操作するために,「特殊トークン」を敵攻撃によって利用することができることを示す。本稿では,Whisper の $texttt|endoftext|>$ token の普遍的な音響的実現方法を提案する。実験では、同じ0.64秒の対向音声セグメントが、ターゲットのWhisper ASRモデルを97%以上の音声サンプルでミュートできることを示した。
論文参考訳（メタデータ） (2024-05-09T22:59:23Z)
SALMONN: Towards Generic Hearing Abilities for Large Language Models [24.73033723114979]
音声音声言語音楽オープンニューラルネットワークSALMONNを提案する。事前訓練されたテキストベースの大規模言語モデル(LLM)と音声および音声エンコーダを単一のマルチモーダルモデルに統合することによって構築される。これは、そのタイプの最初のモデルであり、汎用的な聴覚能力を持つAIへのステップと見なすことができる。
論文参考訳（メタデータ） (2023-10-20T05:41:57Z)
uSee: Unified Speech Enhancement and Editing with Conditional Diffusion Models [57.71199494492223]
本稿では,条件付き拡散モデルを用いた統一音声強調編集(uSee)モデルを提案する。実験の結果,提案したuSeeモデルは,他の生成的音声強調モデルと比較して,発声および発声の双方において優れた性能が得られることがわかった。
論文参考訳（メタデータ） (2023-10-02T04:36:39Z)
Instruction-Following Speech Recognition [21.591086644665197]
本稿では,命令追従音声認識を導入し,多様な自由形式のテキスト命令の理解と実行を行うリステン・アテンド・スペルモデルを訓練する。注目すべきは、我々のモデルは、Librispeechでゼロから訓練され、大規模言語モデルや事前訓練された音声モジュールを必要とせずに、簡単な命令を解釈し、実行します。
論文参考訳（メタデータ） (2023-09-18T14:59:10Z)
SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文参考訳（メタデータ） (2023-08-14T01:01:19Z)
AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文参考訳（メタデータ） (2023-06-22T14:37:54Z)
SpeechGen: Unlocking the Generative Power of Speech Language Models with Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文参考訳（メタデータ） (2023-06-03T22:35:27Z)
VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文参考訳（メタデータ） (2022-11-21T09:10:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。