論文の概要: Cross-Modal Robustness Transfer (CMRT): Training Robust Speech Translation Models Using Adversarial Text
- arxiv url: http://arxiv.org/abs/2602.11933v1
- Date: Thu, 12 Feb 2026 13:30:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.834487
- Title: Cross-Modal Robustness Transfer (CMRT): Training Robust Speech Translation Models Using Adversarial Text
- Title(参考訳): クロスモーダルロバスト性伝達(CMRT) : 逆テキストを用いたロバスト音声翻訳モデルの訓練
- Authors: Abderrahmane Issam, Yusuf Can Semerci, Jan Scholtes, Gerasimos Spanakis,
- Abstract要約: 我々は、音声領域に屈折形態をターゲットとしたテキストベースの対向攻撃を適応する。
テキストモダリティから音声モダリティへの対向的ロバスト性伝達を行うフレームワークであるCross-Modal Robustness Transfer (CMRT)を提案する。
- 参考スコア(独自算出の注目度): 11.168086425477467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-End Speech Translation (E2E-ST) has seen significant advancements, yet current models are primarily benchmarked on curated, "clean" datasets. This overlooks critical real-world challenges, such as morphological robustness to inflectional variations common in non-native or dialectal speech. In this work, we adapt a text-based adversarial attack targeting inflectional morphology to the speech domain and demonstrate that state-of-the-art E2E-ST models are highly vulnerable it. While adversarial training effectively mitigates such risks in text-based tasks, generating high-quality adversarial speech data remains computationally expensive and technically challenging. To address this, we propose Cross-Modal Robustness Transfer (CMRT), a framework that transfers adversarial robustness from the text modality to the speech modality. Our method eliminates the requirement for adversarial speech data during training. Extensive experiments across four language pairs demonstrate that CMRT improves adversarial robustness by an average of more than 3 BLEU points, establishing a new baseline for robust E2E-ST without the overhead of generating adversarial speech.
- Abstract(参考訳): E2E-ST(End-to-End Speech Translation)は大きな進歩を遂げているが、現在のモデルは主にキュレートされた"クリーン"データセットでベンチマークされている。
これは、非母国語や方言の言語に共通する屈折変動に対する形態的堅牢性など、現実世界における重要な課題を見落としている。
本研究では, 音声領域に屈折形態をターゲットとしたテキストベース対向攻撃を適用し, 最先端のE2E-STモデルが極めて脆弱であることを実証する。
対人訓練は、テキストベースのタスクにおけるそのようなリスクを効果的に軽減するが、高品質の対人音声データを生成することは、計算コストが高く、技術的に困難なままである。
そこで本稿では,テキストのモダリティから音声のモダリティへ対向するロバスト性伝達(CMRT)を提案する。
本手法は, 学習中の対人音声データの要求を解消する。
4つの言語対にわたる大規模な実験により、CMRTは平均3 BLEUポイント以上で対向的ロバスト性を向上し、対向音声を生成するオーバーヘッドを伴わずに、ロバストなE2E-STの新たなベースラインを確立した。
関連論文リスト
- Synthetic Voices, Real Threats: Evaluating Large Text-to-Speech Models in Generating Harmful Audio [63.18443674004945]
この研究は、TSシステムを利用して有害なコンテンツを含む音声を生成する、コンテンツ中心の脅威を探究する。
HARMGENは、これらの課題に対処する2つのファミリーにまとめられた5つの攻撃群である。
論文 参考訳(メタデータ) (2025-11-14T03:00:04Z) - Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction [28.20791917022439]
本研究は,テキスト・トゥ・サウンド・ビデオ(T2SV)生成という課題に焦点をあてる。
テキスト条件から同期された音声でビデオを生成することを目的としており、両方のモダリティがテキストに一致していることを保証する。
1)ビデオ用テキストが音声用テキストと等しい1つの共有テキストキャプションは、しばしばモーダル干渉を引き起こす。
論文 参考訳(メタデータ) (2025-10-03T15:43:56Z) - Direct Speech to Speech Translation: A Review [0.0]
音声音声翻訳(S2ST)は,グローバル通信ギャップを埋める変換技術である。
自動音声認識(ASR)、機械翻訳(MT)、テキスト・トゥ・スピーチ(TTS)コンポーネントに依存する従来のカスケードモデルは、エラーの伝搬、遅延の増加、韻律の喪失に悩まされている。
直接S2STモデルは話者識別を保持し、レイテンシを低減し、発声特性と韻律を保存することにより翻訳自然性を改善する。
論文 参考訳(メタデータ) (2025-03-03T06:48:22Z) - SemRoDe: Macro Adversarial Training to Learn Representations That are Robust to Word-Level Attacks [29.942001958562567]
本稿では,セマンティック・ロバスト・ディフェンス(Semantic Robust Defence, セマンティック・ロバスト・ディフェンス, セマンティック・ロバスト・ディフェンス, セマンティック・ロバスト・ディフェンス, セマンティック・ロバスト・ディフェンス, セマンティック・ロバスト・ディフェンス, セマンティック・ロバスト・ディフェンス)
この2つの領域を橋渡しする頑健な表現を学習する。
結果は、最先端の堅牢性を示す。
論文 参考訳(メタデータ) (2024-03-27T10:24:25Z) - Improving Speech Translation by Cross-Modal Multi-Grained Contrastive
Learning [8.501945512734268]
E2E-STに対するFCCL(Fine- and Coarse- Granularity Contrastive Learning)アプローチを提案する。
提案手法の重要な要素は,文レベルとフレームレベルの両方でコントラスト学習を適用し,リッチな意味情報を含む音声表現を抽出するための包括的なガイドを提供することである。
MuST-Cベンチマーク実験の結果,提案手法は8つの言語対に対して,最先端のE2E-STベースラインを大幅に上回ることがわかった。
論文 参考訳(メタデータ) (2023-04-20T13:41:56Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。
事前学習された音声モデルに対する教師なし領域適応手法を提案する。
実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-10-18T22:26:13Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Characterizing the adversarial vulnerability of speech self-supervised
learning [95.03389072594243]
我々は,ゼロ知識とリミテッド知識の両方の敵からの攻撃の下で,そのようなパラダイムの敵対的脆弱性を調査するための最初の試みを行う。
実験結果から, SUPERB が提案するパラダイムは, 限られた知識を持つ敵に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2021-11-08T08:44:04Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-09-07T11:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。