論文の概要: Dual-decoder Transformer for Joint Automatic Speech Recognition and
Multilingual Speech Translation
- arxiv url: http://arxiv.org/abs/2011.00747v1
- Date: Mon, 2 Nov 2020 04:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 12:52:16.214047
- Title: Dual-decoder Transformer for Joint Automatic Speech Recognition and
Multilingual Speech Translation
- Title(参考訳): 自動音声認識と多言語音声翻訳を組み合わせたデュアルデコーダトランスフォーマ
- Authors: Hang Le, Juan Pino, Changhan Wang, Jiatao Gu, Didier Schwab, Laurent
Besacier
- Abstract要約: 自動音声認識(ASR)と多言語音声翻訳(ST)を共同で行う新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを導入する。
我々のモデルはオリジナルのTransformerアーキテクチャに基づいているが、2つのデコーダで構成されており、それぞれが1つのタスク(ASRまたはST)を担っている。
- 参考スコア(独自算出の注目度): 71.54816893482457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce dual-decoder Transformer, a new model architecture that jointly
performs automatic speech recognition (ASR) and multilingual speech translation
(ST). Our models are based on the original Transformer architecture (Vaswani et
al., 2017) but consist of two decoders, each responsible for one task (ASR or
ST). Our major contribution lies in how these decoders interact with each
other: one decoder can attend to different information sources from the other
via a dual-attention mechanism. We propose two variants of these architectures
corresponding to two different levels of dependencies between the decoders,
called the parallel and cross dual-decoder Transformers, respectively.
Extensive experiments on the MuST-C dataset show that our models outperform the
previously-reported highest translation performance in the multilingual
settings, and outperform as well bilingual one-to-one results. Furthermore, our
parallel models demonstrate no trade-off between ASR and ST compared to the
vanilla multi-task architecture. Our code and pre-trained models are available
at https://github.com/formiel/speech-translation.
- Abstract(参考訳): 本稿では,自動音声認識 (asr) と多言語音声翻訳 (st) を組み合わせた新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを提案する。
我々のモデルは、オリジナルのTransformerアーキテクチャ(Vaswani et al., 2017)に基づいており、それぞれ1つのタスク(ASRまたはST)に責任を負う2つのデコーダで構成されています。
私たちの大きな貢献は、これらのデコーダが相互にどのように相互作用するかにあります。
並列およびクロスデュアルデコーダ変換器と呼ばれる,デコーダ間の依存関係の異なる2つのレベルに対応する2種類のアーキテクチャを提案する。
must-cデータセットに関する広範囲な実験により、我々のモデルは、前述した多言語環境での翻訳性能よりも優れており、二言語間1対1の結果よりも優れています。
さらに、並列モデルは、バニラマルチタスクアーキテクチャと比較して、ASRとSTのトレードオフを示さない。
私たちのコードと事前トレーニングされたモデルは、https://github.com/formiel/speech-translationで利用可能です。
関連論文リスト
- Cascaded Cross-Modal Transformer for Audio-Textual Classification [30.643750999989233]
本稿では,自動音声認識(ASR)モデルを用いた音声の書き起こしにより,マルチモーダル表現の固有値を活用することを提案する。
これにより、各データサンプルに対する音声テキスト(マルチモーダル)表現が得られる。
我々は、ACM Multimedia 2023 Computational Paralinguistics Challenge の Requests Sub-Challenge において、勝利のソリューションであると宣言された。
論文 参考訳(メタデータ) (2024-01-15T10:18:08Z) - DASpeech: Directed Acyclic Transformer for Fast and High-quality
Speech-to-Speech Translation [36.126810842258706]
直接音声音声変換(S2ST)は、1つのモデルを用いて、ある言語から別の言語に音声を翻訳する。
言語的および音響的多様性が存在するため、ターゲット音声は複雑な多モーダル分布に従う。
高速かつ高品質なS2STを実現する非自己回帰直接S2STモデルであるDASpeechを提案する。
論文 参考訳(メタデータ) (2023-10-11T11:39:36Z) - VioLA: Unified Codec Language Models for Speech Recognition, Synthesis,
and Translation [91.39949385661379]
VioLAは1つの自動回帰トランスフォーマーデコーダのみのネットワークで、音声とテキストを含む様々なモーダルタスクを統合する。
まず、オフラインのニューラルエンコーダを用いて、全ての発話を個別のトークンに変換する。
さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
論文 参考訳(メタデータ) (2023-05-25T14:39:47Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z) - Multilingual Speech Recognition for Low-Resource Indian Languages using
Multi-Task conformer [4.594159253008448]
インド語の低リソース多言語音声認識のためのマルチタスク学習に基づくトランスフォーマモデルを提案する。
音素認識タスクには音素デコーダ,グラフ素シーケンス予測には音素デコーダを用いる。
提案手法は従来の手法よりも大幅に改善できる。
論文 参考訳(メタデータ) (2021-08-22T09:32:15Z) - Multilingual Speech Translation with Unified Transformer: Huawei Noah's
Ark Lab at IWSLT 2021 [33.876412404781846]
本稿では,Huawei Noah の Ark Lab から IWSLT 2021 Speech Translation (MultiST) タスクに送信されたシステムについて述べる。
我々は、MultiSTモデルに統一トランスフォーマーアーキテクチャを使用し、異なるモダリティからのデータを活用してモデルの能力を高める。
マルチタスク学習やタスクレベルのカリキュラム学習,データ拡張など,パフォーマンス向上のために,いくつかのトレーニング手法を適用した。
論文 参考訳(メタデータ) (2021-06-01T02:50:49Z) - MultiSpeech: Multi-Speaker Text to Speech with Transformer [145.56725956639232]
Transformer-based text to speech (TTS)モデル(Transformer TTSciteli 2019neural, FastSpeechciteren 2019fastspeech)は、RNNベースのモデルよりもトレーニングと推論効率の利点を示している。
我々はMultiSpeechと呼ばれる堅牢で高品質なマルチスピーカトランスフォーマーTSシステムを開発した。
論文 参考訳(メタデータ) (2020-06-08T15:05:28Z) - Efficient Wait-k Models for Simultaneous Machine Translation [46.01342928010307]
同時機械翻訳は、入力シーケンス全体が利用可能になる前に出力生成を開始することで構成される。
Wait-kデコーダは、この問題に対してシンプルだが効率的なアプローチを提供する。
IWSLTデータセットを用いた音声コーパスの低リソース設定におけるwait-k復号の動作について検討する。
論文 参考訳(メタデータ) (2020-05-18T11:14:23Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。