論文の概要: Bridging the Gaps of Both Modality and Language: Synchronous Bilingual
CTC for Speech Translation and Speech Recognition
- arxiv url: http://arxiv.org/abs/2309.12234v1
- Date: Thu, 21 Sep 2023 16:28:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 14:20:13.204780
- Title: Bridging the Gaps of Both Modality and Language: Synchronous Bilingual
CTC for Speech Translation and Speech Recognition
- Title(参考訳): モダリティと言語の両方のギャップを埋める: 音声翻訳と音声認識のための同期バイリンガルCTC
- Authors: Chen Xu, Xiaoqian Liu, Erfeng He, Yuhao Zhang, Qianqian Dong, Tong
Xiao, Jingbo Zhu, Dapeng Man, Wu Yang
- Abstract要約: BiL-CTC+は、ソース言語とターゲット言語とのギャップを埋める。
また,音声認識性能も大幅に向上した。
- 参考スコア(独自算出の注目度): 46.41096278421193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we present synchronous bilingual Connectionist Temporal
Classification (CTC), an innovative framework that leverages dual CTC to bridge
the gaps of both modality and language in the speech translation (ST) task.
Utilizing transcript and translation as concurrent objectives for CTC, our
model bridges the gap between audio and text as well as between source and
target languages. Building upon the recent advances in CTC application, we
develop an enhanced variant, BiL-CTC+, that establishes new state-of-the-art
performances on the MuST-C ST benchmarks under resource-constrained scenarios.
Intriguingly, our method also yields significant improvements in speech
recognition performance, revealing the effect of cross-lingual learning on
transcription and demonstrating its broad applicability. The source code is
available at https://github.com/xuchennlp/S2T.
- Abstract(参考訳): 本研究では,音声翻訳(ST)タスクにおけるモダリティと言語の両方のギャップを埋めるために,二重CTCを活用する革新的なフレームワークである,同期バイリンガル接続性時間分類(CTC)を提案する。
CTCの同時目的として書き起こしと翻訳を利用することで,音声とテキストのギャップと,ソース言語とターゲット言語とのギャップを橋渡しする。
CTC応用の最近の進歩に基づき,資源制約シナリオ下での MuST-C ST ベンチマーク上での最先端性能を確立する改良型 BiL-CTC+ を開発した。
興味深いことに,本手法は音声認識性能を大幅に向上させ,言語間学習が転写に与える影響を明らかにし,その広範な適用性を示した。
ソースコードはhttps://github.com/xuchennlp/S2Tで入手できる。
関連論文リスト
- CoT-ST: Enhancing LLM-based Speech Translation with Multimodal Chain-of-Thought [33.32415197728357]
音声言語モデル(SLM)は,音声翻訳タスクにおいて印象的な性能を示した。
本研究では,SLMのチェーン・オブ・シークレット機能を活性化する3段階のトレーニングフレームワークを提案する。
本稿では,マルチモーダルCoTを用いた音声翻訳モデルであるCoT-STを提案する。
論文 参考訳(メタデータ) (2024-09-29T01:48:09Z) - SpeechTaxi: On Multilingual Semantic Speech Classification [0.0]
SpeechTaxiは、聖書の意味音声分類のための80時間多言語データセットである。
MSEは言語間移動能力に乏しいようで、E2Eは(1)訓練で見えない言語へのゼロショット転送、(2)多言語訓練、すなわち複数の言語での共同訓練の両方でCAを著しく遅れている。
我々は,言語に依存しない中間表現として,ローマ字文への書き起こしに基づく新しいCAアプローチを考案し,ネイティブなASRサポートを持たない言語に対する堅牢な解であることを示す。
論文 参考訳(メタデータ) (2024-09-10T09:56:15Z) - Cross-lingual Knowledge Distillation via Flow-based Voice Conversion for
Robust Polyglot Text-To-Speech [6.243356997302935]
本稿では、上流音声変換(VC)モデルと下流音声合成(TTS)モデルを含む、言語間音声合成のためのフレームワークを提案する。
最初の2段階では、VCモデルを用いてターゲット話者の発話をターゲット話者の声に変換する。
第3段階では、変換されたデータは、対象言語における記録からの言語的特徴や持続時間と組み合わせられ、単一話者音響モデルの訓練に使用される。
論文 参考訳(メタデータ) (2023-09-15T09:03:14Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - CTC Alignments Improve Autoregressive Translation [145.90587287444976]
我々はCTCが共同のCTC/アテンションフレームワークに適用された場合、実際に翻訳に意味があることを論じる。
提案した共同CTC/アテンションモデルは6つのベンチマーク翻訳タスクにおいて純粋アテンションベースラインを上回った。
論文 参考訳(メタデータ) (2022-10-11T07:13:50Z) - End-to-End Speech Translation for Code Switched Speech [13.97982457879585]
コードスイッチング(英: Code switch, CS)とは、異なる言語の単語やフレーズを相互に使用する現象である。
我々は,音声翻訳作業(ST)における英語とスペイン語の会話の文脈において,CSに着目し,書き起こしと翻訳の両方を生成・評価する。
我々のSTアーキテクチャ、特に双方向のエンドツーエンドアーキテクチャは、CS訓練データを使用しなくても、CS音声でよく機能することを示す。
論文 参考訳(メタデータ) (2022-04-11T13:25:30Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。