論文の概要: Pre-training for Speech Translation: CTC Meets Optimal Transport
- arxiv url: http://arxiv.org/abs/2301.11716v3
- Date: Mon, 5 Jun 2023 11:44:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 03:27:37.164425
- Title: Pre-training for Speech Translation: CTC Meets Optimal Transport
- Title(参考訳): 音声翻訳のための事前学習:CTCが最適な交通手段に
- Authors: Phuong-Hang Le, Hongyu Gong, Changhan Wang, Juan Pino, Benjamin
Lecouteux, Didier Schwab
- Abstract要約: 本研究では,コネクショニスト時間分類(CTC)の損失が設計によるモダリティギャップを減少させることを示す。
本稿では,CTCと最適輸送を組み合わせた新しい事前学習手法を提案する。
本手法では,2つのエンコーダ,1つは音響入力用,もう1つはテキスト入力用で構成され,ワッサーシュタイン空間において互いに近接した表現を生成する。
- 参考スコア(独自算出の注目度): 29.807861658249923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The gap between speech and text modalities is a major challenge in
speech-to-text translation (ST). Different methods have been proposed to reduce
this gap, but most of them require architectural changes in ST training. In
this work, we propose to mitigate this issue at the pre-training stage,
requiring no change in the ST model. First, we show that the connectionist
temporal classification (CTC) loss can reduce the modality gap by design. We
provide a quantitative comparison with the more common cross-entropy loss,
showing that pre-training with CTC consistently achieves better final ST
accuracy. Nevertheless, CTC is only a partial solution and thus, in our second
contribution, we propose a novel pre-training method combining CTC and optimal
transport to further reduce this gap. Our method pre-trains a Siamese-like
model composed of two encoders, one for acoustic inputs and the other for
textual inputs, such that they produce representations that are close to each
other in the Wasserstein space. Extensive experiments on the standard CoVoST-2
and MuST-C datasets show that our pre-training method applied to the vanilla
encoder-decoder Transformer achieves state-of-the-art performance under the
no-external-data setting, and performs on par with recent strong multi-task
learning systems trained with external data. Finally, our method can also be
applied on top of these multi-task systems, leading to further improvements for
these models. Code and pre-trained models are available at
https://github.com/formiel/fairseq.
- Abstract(参考訳): 音声とテキストのモダリティのギャップは、音声からテキストへの翻訳(ST)において大きな課題である。
このギャップを減らすために異なる方法が提案されているが、そのほとんどはstトレーニングのアーキテクチャ変更を必要とする。
本稿では,STモデルの変更を必要とせず,事前学習段階でこの問題を軽減することを提案する。
まず,コネクショニスト時間分類(ctc)の損失は,設計によってモダリティギャップを低減できることを示す。
より一般的なクロスエントロピー損失と定量的に比較し,CTCによる事前学習が常に最終ST精度を向上させることを示す。
それにもかかわらず、CTCは部分解であり、第2の貢献として、CTCと最適輸送を組み合わせた新しい事前学習法を提案する。
本手法では,2つのエンコーダ,1つは音響入力用,もう1つはテキスト入力用で構成され,ワッサーシュタイン空間において互いに近接した表現を生成する。
標準のCoVoST-2およびMuST-Cデータセットに対する大規模な実験により、バニラエンコーダデコーダ変換器に適用した事前学習手法が、外部データ設定下での最先端性能を実現し、最近の強力なマルチタスク学習システムに匹敵する性能を示した。
最後に、この手法はマルチタスクシステム上でも適用可能であり、これらのモデルをさらに改善することができる。
コードと事前訓練されたモデルはhttps://github.com/formiel/fairseq.comで入手できる。
関連論文リスト
- Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - Pushing the Limits of Zero-shot End-to-End Speech Translation [15.725310520335785]
データ不足とテキストモダリティ間のモダリティギャップは、エンドツーエンド音声翻訳(ST)システムの2つの大きな障害である。
ゼロショットSTの手法であるZeroSwotを導入し、ペアSTデータを使わずにモダリティギャップをブリッジする。
実験の結果,STデータを使わずにモダリティギャップを効果的に塞ぐことが可能であること,MuST-CとCoVoSTで得られた結果が本手法の優位性を示している。
論文 参考訳(メタデータ) (2024-02-16T03:06:37Z) - Efficient Stagewise Pretraining via Progressive Subnetworks [55.65819977062729]
我々は、トレーニング全体を通して完全なモデルを維持できる代替フレームワークであるプログレッシブサブネットワークトレーニングを提案し、各ステップでモデル内でのみトレインワークを行う。
RaPTr は BERT と UL2 言語モデルの事前トレーニング損失が向上すると同時に,標準的なトレーニングに比べて 20-33% のFLOP の削減が要求される。
論文 参考訳(メタデータ) (2024-02-08T18:49:09Z) - Self-distillation Regularized Connectionist Temporal Classification Loss
for Text Recognition: A Simple Yet Effective Approach [14.69981874614434]
損失関数の観点から、テキスト認識モデルの最適化方法を示す。
CTCに基づく手法は、性能と推論速度のバランスが良いため、実際は広く用いられているが、それでも精度は低下している。
本稿では,CTCモデルを用いた自己蒸留方式を提案し,この問題に対処する。
論文 参考訳(メタデータ) (2023-08-17T06:32:57Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - Improving Hybrid CTC/Attention End-to-end Speech Recognition with
Pretrained Acoustic and Language Model [4.490054848527943]
本稿では,ハイブリッドCTC/アテンションE2Eモデルに基づく事前学習型トランスフォーマー(Preformer)S2S ASRアーキテクチャを提案する。
我々の知る限り、これはS2S ASRシステムで事前訓練されたAMとLMの両方を利用する最初の作業である。
論文 参考訳(メタデータ) (2021-12-14T09:38:31Z) - Combining Unsupervised and Text Augmented Semi-Supervised Learning for
Low Resourced Autoregressive Speech Recognition [7.067186994804316]
我々は教師なしの方法で最先端のコンフォーマーモデルを事前訓練する。
追加のテキストデータは、外部言語モデルによって組み込まれている。
最終的なパフォーマンスは、半教師付きトレーニングにCTCベースのデコードを使用する場合、2%向上した絶対値である。
論文 参考訳(メタデータ) (2021-10-29T14:59:18Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z) - Contrastive Prototype Learning with Augmented Embeddings for Few-Shot
Learning [58.2091760793799]
拡張埋め込み(CPLAE)モデルを用いた新しいコントラスト型プロトタイプ学習を提案する。
クラスプロトタイプをアンカーとして、CPLは、同じクラスのクエリサンプルを、異なるクラスのサンプルを、さらに遠くに引き出すことを目的としている。
いくつかのベンチマークによる大規模な実験により,提案したCPLAEが新たな最先端を実現することが示された。
論文 参考訳(メタデータ) (2021-01-23T13:22:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。