論文の概要: Adaptive Feature Selection for End-to-End Speech Translation
- arxiv url: http://arxiv.org/abs/2010.08518v2
- Date: Tue, 20 Oct 2020 13:53:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 20:40:46.600312
- Title: Adaptive Feature Selection for End-to-End Speech Translation
- Title(参考訳): エンドツーエンド音声翻訳のための適応的特徴選択
- Authors: Biao Zhang, Ivan Titov, Barry Haddow, Rico Sennrich
- Abstract要約: 我々は、エンコーダデコーダに基づくE2E音声翻訳(ST)のための適応的特徴選択(AFS)を提案する。
まず、ASRエンコーダを事前訓練し、AFSを適用して各符号化音声特徴の重要性をSRに動的に推定する。
我々は、L0DROPをAFSのバックボーンとみなし、時間次元と特徴次元の両方に関して、音声特徴をスパース化するように適応する。
- 参考スコア(独自算出の注目度): 87.07211937607102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Information in speech signals is not evenly distributed, making it an
additional challenge for end-to-end (E2E) speech translation (ST) to learn to
focus on informative features. In this paper, we propose adaptive feature
selection (AFS) for encoder-decoder based E2E ST. We first pre-train an ASR
encoder and apply AFS to dynamically estimate the importance of each encoded
speech feature to SR. A ST encoder, stacked on top of the ASR encoder, then
receives the filtered features from the (frozen) ASR encoder. We take L0DROP
(Zhang et al., 2020) as the backbone for AFS, and adapt it to sparsify speech
features with respect to both temporal and feature dimensions. Results on
LibriSpeech En-Fr and MuST-C benchmarks show that AFS facilitates learning of
ST by pruning out ~84% temporal features, yielding an average translation gain
of ~1.3-1.6 BLEU and a decoding speedup of ~1.4x. In particular, AFS reduces
the performance gap compared to the cascade baseline, and outperforms it on
LibriSpeech En-Fr with a BLEU score of 18.56 (without data augmentation)
- Abstract(参考訳): 音声信号の情報は均等に分配されないため、エンド・ツー・エンド(E2E)音声翻訳(ST)において、情報的特徴に焦点を合わせることを学ぶことがさらに課題となる。
本稿では,まずasrエンコーダを事前学習し,各符号化音声特徴量の重要性をsrに動的に推定するためにafsを適用する。
ASRエンコーダの上に積み重ねられたSTエンコーダは、(凍結した)ASRエンコーダからフィルタされた特徴を受信する。
我々は、L0DROP (Zhang et al., 2020) をAFSのバックボーンとみなし、時間次元と特徴次元の両方に関して音声特徴をスパース化する。
LibriSpeech En-Fr と MuST-C のベンチマークの結果、AFS は ~84% の時間的特徴を抽出することで ST の学習を促進し、平均翻訳効率は ~1.3-1.6 BLEU となり、復号速度は ~1.4倍になった。
特に、AFSはカスケードベースラインと比較してパフォーマンスギャップを減らし、BLEUスコアが18.56(データ拡張なし)のLibriSpeech En-Frで性能を上回ります。
関連論文リスト
- Exploring SSL Discrete Speech Features for Zipformer-based Contextual ASR [74.38242498079627]
自己教師付き学習(SSL)に基づく離散音声表現は、非常にコンパクトで、ドメイン適応性が高い。
本稿では、Zipformer-Transducer ASRシステムにおいて、WavLMモデルから抽出したSSL離散音声特徴を追加の発話音響コンテキスト特徴として用いた。
論文 参考訳(メタデータ) (2024-09-13T13:01:09Z) - Decoder-only Architecture for Streaming End-to-end Speech Recognition [45.161909551392085]
ブロックワイド自動音声認識(ASR)におけるデコーダのみのアーキテクチャを提案する。
提案手法では,ブロックワイズ音声サブネットワークを用いて,CTC出力とコンテキスト埋め込みを用いて音声特徴を圧縮し,デコーダのプロンプトとして順次提供する。
提案するデコーダのみのストリーミングASRは,ベースラインモデルの2倍の速度で,LibriSpeechテストの他セットの単語誤り率を8%削減する。
論文 参考訳(メタデータ) (2024-06-23T13:50:08Z) - Label-Synchronous Neural Transducer for E2E Simultaneous Speech Translation [14.410024368174872]
本稿では,同時音声翻訳のためのラベル同期型ニューラルトランスデューサLS-Transducer-SSTを提案する。
LS-Transducer-SSTはオートレグレッシブ・インテグレート・アンド・ファイア機構に基づいて翻訳トークンをいつ発行するかを動的に決定する。
Fisher-CallHome Spanish (Es-En) と MuST-C En-De データによる実験は、LS-Transducer-SSTが既存の一般的な方法よりも高品質なレイテンシトレードオフを提供することを示している。
論文 参考訳(メタデータ) (2024-06-06T22:39:43Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Joint Encoder-Decoder Self-Supervised Pre-training for ASR [0.0]
自己教師型学習は、様々な音声関連下流タスクで大きな成功を収めている。
本稿では,自己教師型学習におけるデコーダのパワーを活用した新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-06-09T12:45:29Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Raw Waveform Encoder with Multi-Scale Globally Attentive Locally
Recurrent Networks for End-to-End Speech Recognition [45.858039215825656]
本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。
ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
論文 参考訳(メタデータ) (2021-06-08T12:12:33Z) - Stacked Acoustic-and-Textual Encoding: Integrating the Pre-trained
Models into Speech Translation Encoders [30.160261563657947]
エンドツーエンドの音声翻訳では、事前トレーニングが有望です。
Stackedを提案します。
音声翻訳のための音響・テキスト(SATE)法
エンコーダはアコースティックシーケンスを通常どおりに処理することから始まり、その後はアコースティックシーケンスのように振る舞う。
MTエンコーダは入力シーケンスのグローバル表現である。
論文 参考訳(メタデータ) (2021-05-12T16:09:53Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。