論文の概要: AsyncSwitch: Asynchronous Text-Speech Adaptation for Code-Switched ASR
- arxiv url: http://arxiv.org/abs/2506.14190v1
- Date: Tue, 17 Jun 2025 05:05:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.333905
- Title: AsyncSwitch: Asynchronous Text-Speech Adaptation for Code-Switched ASR
- Title(参考訳): AsyncSwitch: Asynchronous Text-Speech Adaptation for Code-Switched ASR
- Authors: Tuan Nguyen, Huy-Dat Tran,
- Abstract要約: AsyncSwitchは、ペア音声テキストコーパスを微調整する前に、さまざまなコードスイッチされたドメインにASRモデルを事前出力する新しいフレームワークである。
マレー語と英語のコードスイッチングに関するウィスパーの実験では、9.02%の相対的なWER削減が示され、シングリッシュ、マレー語、その他の英語の変種におけるモノリンガルのパフォーマンスが向上した。
- 参考スコア(独自算出の注目度): 3.263178944046948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing code-switched ASR systems is challenging due to language ambiguity and limited exposure to multilingual, code-switched data, while collecting such speech is costly. Prior work generates synthetic audio from text, but these methods are computationally intensive and hard to scale. We introduce AsyncSwitch, a novel asynchronous adaptation framework that leverages large-scale, text-rich web data to pre-expose ASR models to diverse code-switched domains before fine-tuning on paired speech-text corpora. Our three-stage process (1) trains decoder self-attention and feedforward layers on code-switched text, (2) aligns decoder and encoder via cross-attention using limited speech-text data, and (3) fully fine-tunes the entire model. Experiments with Whisper on Malay-English code-switching demonstrate a 9.02% relative WER reduction, while improving monolingual performance in Singlish, Malay, and other English variants.
- Abstract(参考訳): 言語の不明瞭さと多言語データへの限定的な露出のため、コード切替型ASRシステムの開発は困難であり、そのような音声の収集にはコストがかかる。
先行研究はテキストから合成音声を生成するが、これらの手法は計算集約的でスケールが難しい。
我々は,大規模なテキストリッチなWebデータを活用する非同期適応フレームワークであるAsyncSwitchを導入し,ペア音声テキストコーパスを微調整する前に,ASRモデルをさまざまなコード切替ドメインに事前公開する。
我々の3段階のプロセスは,(1) コードスイッチされたテキスト上でデコーダの自己注意層とフィードフォワード層を訓練し,(2) 限定された音声テキストデータを用いて,デコーダとエンコーダを相互注意により整列させ,(3) モデル全体を完全に微調整する。
マレー語と英語のコードスイッチングに関するウィスパーの実験では、9.02%の相対的なWER削減が示され、シングリッシュ、マレー語、その他の英語の変種におけるモノリンガルのパフォーマンスが向上した。
関連論文リスト
- Adapting Whisper for Code-Switching through Encoding Refining and Language-Aware Decoding [27.499426765845705]
コードスイッチング自動音声認識(ASR)はアクセント、聴覚的類似性、シームレスな言語スイッチによる言語混乱による課題に直面している。
我々は,大規模多言語事前学習音声認識モデルであるWhisperを,エンコーダ部とデコーダ部の両方からCSに適応させる。
論文 参考訳(メタデータ) (2024-12-21T07:06:44Z) - CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation [66.92823764664206]
テキストに音声表現を適応させる新しいトランスフォーマーベースのモジュールであるM-Adapterを提案する。
音声シーケンスを縮小しながら、M-Adapterは音声からテキストへの翻訳に必要な機能を生成する。
実験の結果,我々のモデルは最大1BLEUで強いベースラインを達成できた。
論文 参考訳(メタデータ) (2022-07-03T04:26:53Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。