Fugu-MT 論文翻訳(概要): Exploiting Vulnerabilities in Speech Translation Systems through Targeted Adversarial Attacks

論文の概要: Exploiting Vulnerabilities in Speech Translation Systems through Targeted Adversarial Attacks

arxiv url: http://arxiv.org/abs/2503.00957v1
Date: Sun, 02 Mar 2025 16:38:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:37.705202
Title: Exploiting Vulnerabilities in Speech Translation Systems through Targeted Adversarial Attacks
Title（参考訳）: 対人攻撃による音声翻訳システムにおける爆発的脆弱性
Authors: Chang Liu, Haolin Wu, Xi Yang, Kui Zhang, Cong Wu, Weiming Zhang, Nenghai Yu, Tianwei Zhang, Qing Guo, Jie Zhang,
Abstract要約: 本稿では,非知覚的音声操作による音声翻訳システム構築手法について検討する。本研究では,(1)ソース音声への摂動注入,(2)ターゲット翻訳を誘導する対向音楽の生成という2つの革新的なアプローチを提案する。我々の実験では、注意深く作られた音声摂動は、ターゲットとなる有害な出力を生成するために翻訳モデルを誤解させる可能性があるが、敵対的な音楽はこの目標をより隠蔽的に達成する。この研究の意味は、直ちにセキュリティ上の懸念を越えて、ニューラル音声処理システムの解釈可能性と堅牢性に光を当てることである。
参考スコア（独自算出の注目度）: 59.87470192277124
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As speech translation (ST) systems become increasingly prevalent, understanding their vulnerabilities is crucial for ensuring robust and reliable communication. However, limited work has explored this issue in depth. This paper explores methods of compromising these systems through imperceptible audio manipulations. Specifically, we present two innovative approaches: (1) the injection of perturbation into source audio, and (2) the generation of adversarial music designed to guide targeted translation, while also conducting more practical over-the-air attacks in the physical world. Our experiments reveal that carefully crafted audio perturbations can mislead translation models to produce targeted, harmful outputs, while adversarial music achieve this goal more covertly, exploiting the natural imperceptibility of music. These attacks prove effective across multiple languages and translation models, highlighting a systemic vulnerability in current ST architectures. The implications of this research extend beyond immediate security concerns, shedding light on the interpretability and robustness of neural speech processing systems. Our findings underscore the need for advanced defense mechanisms and more resilient architectures in the realm of audio systems. More details and samples can be found at https://adv-st.github.io.
Abstract（参考訳）: 音声翻訳(ST)システムがますます普及するにつれて、その脆弱性を理解することは、堅牢で信頼性の高いコミュニケーションを保証するために不可欠である。しかし、この問題については限定的な研究がなされている。本稿では,これらのシステムに対して,知覚不能な音声操作を施す手法について検討する。具体的には,(1)ソース音声への摂動注入,(2)ターゲット翻訳を誘導する敵対音楽の生成,さらには物理的な世界でより実用的なオーバー・ザ・エア・アタックを行うという2つの革新的なアプローチを提案する。実験の結果,音声摂動を慎重に構築することで,対象とする有害なアウトプットを生成するために翻訳モデルをミスリードし,敵対的な音楽がこの目標をより隠蔽的に達成し,音楽の自然的受容性を活用できることが判明した。これらの攻撃は、複数の言語や翻訳モデルで有効であることが証明され、現在のSTアーキテクチャにおけるシステム的脆弱性が強調される。この研究の意味は、直ちにセキュリティ上の懸念を越えて、ニューラル音声処理システムの解釈可能性と堅牢性に光を当てることである。本研究は,オーディオシステムの領域において,より高度な防御機構とよりレジリエントなアーキテクチャの必要性を浮き彫りにした。詳細とサンプルはhttps://adv-st.github.io.comで確認できる。

関連論文リスト

OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities [54.152681077418805]
現在の検出アプローチは誤りがあり、特にモデル機能のミスマッチした一般化を利用する攻撃の影響を受けやすい。 OMNIGUARDは,言語やモダリティにまたがる有害なプロンプトを検出する手法である。提案手法は,多言語環境において最強のベースラインよりも11.57%,有害なプロンプト分類精度を向上する。
論文参考訳（メタデータ） (2025-05-29T05:25:27Z)
Audio Jailbreak Attacks: Exposing Vulnerabilities in SpeechGPT in a White-Box Framework [6.002582335323663]
白箱シナリオにおけるMLLM(Multimodal Large Language Models)の音声入力を対象とする逆攻撃を提案する。本稿では,新たなトークンレベルアタックを導入し,モデルの音声トークン化へのアクセスを活用して,逆トークン列を生成する。当社のアプローチでは,複数の制限されたタスクに対して,最大99%の攻撃成功率を実現しています。
論文参考訳（メタデータ） (2025-05-24T20:46:36Z)
What You Read Isn't What You Hear: Linguistic Sensitivity in Deepfake Speech Detection [7.555970188701627]
我々は,オープンソースおよび商用のアンチスプーフィング検出器に対する転写レベルの逆攻撃を導入する。攻撃の成功率は、オープンソースのディテクターとボイスで60%を超え、1つの商業的検出精度は、合成オーディオで100%からわずか32%に低下する。その結果、純粋な音響防御を超えて、頑丈な防汚システムの設計における言語的変化を考慮する必要性が浮き彫りになった。
論文参考訳（メタデータ） (2025-05-23T06:06:37Z)
Measuring the Robustness of Audio Deepfake Detectors [59.09338266364506]
この研究は、16の一般的な汚職に対する10のオーディオディープフェイク検出モデルの頑健さを体系的に評価する。従来のディープラーニングモデルと最先端の基礎モデルの両方を用いて、4つのユニークな観察を行う。
論文参考訳（メタデータ） (2025-03-21T23:21:17Z)
"I am bad": Interpreting Stealthy, Universal and Robust Audio Jailbreaks in Audio-Language Models [0.9480364746270077]
本稿では,Audio-Language Models(ALMs)を対象とする音声ジェイルブレイクについて検討する。我々は、プロンプト、タスク、さらにはベースオーディオサンプルをまたいで一般化する対向的摂動を構築する。我々は、ALMがこれらの音声相手の例をどう解釈するかを分析し、知覚不能な一対一の有毒な音声を符号化する。
論文参考訳（メタデータ） (2025-02-02T08:36:23Z)
Can DeepFake Speech be Reliably Detected? [17.10792531439146]
この研究は、最先端のオープンソース音声検出装置に対する能動的悪意のある攻撃に関する最初の体系的研究である。その結果、敵の脅威が進行する中で、より堅牢な検出方法が緊急に必要であることが明らかとなった。
論文参考訳（メタデータ） (2024-10-09T06:13:48Z)
Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文参考訳（メタデータ） (2024-05-28T04:11:37Z)
Instruct2Attack: Language-Guided Semantic Adversarial Attacks [76.83548867066561]
Instruct2Attack (I2A) は、自由形式の言語命令に従って意味のある摂動を生成する言語誘導セマンティックアタックである。我々は最先端の潜伏拡散モデルを用いて、逆拡散過程を逆ガイドし、入力画像とテキスト命令に条件付けされた逆潜伏符号を探索する。 I2Aは、強い敵の防御の下でも最先端のディープニューラルネットワークを破ることができることを示す。
論文参考訳（メタデータ） (2023-11-27T05:35:49Z)
Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。 1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文参考訳（メタデータ） (2023-05-31T10:08:37Z)
Defense Against Adversarial Attacks on Audio DeepFake Detection [0.4511923587827302]
Audio DeepFakes (DF) は、ディープラーニングを用いて人工的に生成された発話である。脅威を防ぐために、生成された音声を検出する複数のニューラルネットワークベースの手法が提案されている。
論文参考訳（メタデータ） (2022-12-30T08:41:06Z)
TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。 TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文参考訳（メタデータ） (2022-05-25T06:34:14Z)
SoK: The Faults in our ASRs: An Overview of Attacks against Automatic Speech Recognition and Speaker Identification Systems [28.635467696564703]
音声と話者システムのエンドツーエンドアーキテクチャは、画像空間のそれとはかなり異なる攻撃と防御を行うことを示す。そして、これらのモデルに対する攻撃はほとんど普遍的に転送できないことを実験的に実証した。
論文参考訳（メタデータ） (2020-07-13T18:52:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。