論文の概要: Multilingual Speech Translation with Unified Transformer: Huawei Noah's
Ark Lab at IWSLT 2021
- arxiv url: http://arxiv.org/abs/2106.00197v1
- Date: Tue, 1 Jun 2021 02:50:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:10:09.731568
- Title: Multilingual Speech Translation with Unified Transformer: Huawei Noah's
Ark Lab at IWSLT 2021
- Title(参考訳): 統一トランスフォーマーによる多言語音声翻訳:huawei noah's ark lab at iwslt 2021
- Authors: Xingshan Zeng, Liangyou Li and Qun Liu
- Abstract要約: 本稿では,Huawei Noah の Ark Lab から IWSLT 2021 Speech Translation (MultiST) タスクに送信されたシステムについて述べる。
我々は、MultiSTモデルに統一トランスフォーマーアーキテクチャを使用し、異なるモダリティからのデータを活用してモデルの能力を高める。
マルチタスク学習やタスクレベルのカリキュラム学習,データ拡張など,パフォーマンス向上のために,いくつかのトレーニング手法を適用した。
- 参考スコア(独自算出の注目度): 33.876412404781846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes the system submitted to the IWSLT 2021 Multilingual
Speech Translation (MultiST) task from Huawei Noah's Ark Lab. We use a unified
transformer architecture for our MultiST model, so that the data from different
modalities (i.e., speech and text) and different tasks (i.e., Speech
Recognition, Machine Translation, and Speech Translation) can be exploited to
enhance the model's ability. Specifically, speech and text inputs are firstly
fed to different feature extractors to extract acoustic and textual features,
respectively. Then, these features are processed by a shared encoder--decoder
architecture. We apply several training techniques to improve the performance,
including multi-task learning, task-level curriculum learning, data
augmentation, etc. Our final system achieves significantly better results than
bilingual baselines on supervised language pairs and yields reasonable results
on zero-shot language pairs.
- Abstract(参考訳): 本稿では,Huawei Noah の Ark Lab から IWSLT 2021 Multilingual Speech Translation (MultiST) タスクに送信されたシステムについて述べる。
マルチストモデルでは,異なるモダリティ(音声とテキスト)と異なるタスク(音声認識,機械翻訳,音声翻訳)からのデータを活用し,モデルの能力を高めるために,統一トランスフォーマアーキテクチャを用いる。
具体的には、まず音声とテキストをそれぞれ異なる特徴抽出器に入力し、音響的特徴とテキスト的特徴を抽出する。
次に、これらの機能は共有エンコーダ-デコーダアーキテクチャによって処理される。
マルチタスク学習,タスクレベルのカリキュラム学習,データ拡張など,パフォーマンス向上にいくつかのトレーニング手法を適用する。
最終システムは教師付き言語ペアのバイリンガルベースラインよりもかなり良い結果を得ることができ,ゼロショット言語ペアでは合理的な結果が得られる。
関連論文リスト
- Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer [39.31849739010572]
textbfGenerative textbfPre-trained textbfSpeech textbfTransformer (GPST)を紹介する。
GPSTは、音声波形を2種類の独立した音声表現に量子化し、階層的なトランスフォーマーアーキテクチャに統合する。
短時間の3秒のプロンプトによって、GPSTは自然で一貫性のあるパーソナライズされた音声を生成し、コンテキスト内学習能力を示す。
論文 参考訳(メタデータ) (2024-06-03T04:16:30Z) - Cascaded Cross-Modal Transformer for Audio-Textual Classification [30.643750999989233]
本稿では,自動音声認識(ASR)モデルを用いた音声の書き起こしにより,マルチモーダル表現の固有値を活用することを提案する。
これにより、各データサンプルに対する音声テキスト(マルチモーダル)表現が得られる。
我々は、ACM Multimedia 2023 Computational Paralinguistics Challenge の Requests Sub-Challenge において、勝利のソリューションであると宣言された。
論文 参考訳(メタデータ) (2024-01-15T10:18:08Z) - Many-to-Many Spoken Language Translation via Unified Speech and Text
Representation Learning with Unit-to-Unit Translation [39.74625363642717]
自己教師型音声モデルから符号化された音声特徴の量子化表現である音声単位を用いた多言語音声の表現を行う。
そこで本研究では,多言語データに基づいて,ユニット・ツー・ユニット翻訳(UTUT)を目標としたエンコーダ・デコーダ構造モデルを訓練する。
UTUTを用いた1つの事前学習モデルは、音声音声翻訳(STS)、多言語テキスト音声合成(TTS)、テキスト音声翻訳(TTST)などの多言語音声およびテキスト関連タスクに利用できる。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - VioLA: Unified Codec Language Models for Speech Recognition, Synthesis,
and Translation [91.39949385661379]
VioLAは1つの自動回帰トランスフォーマーデコーダのみのネットワークで、音声とテキストを含む様々なモーダルタスクを統合する。
まず、オフラインのニューラルエンコーダを用いて、全ての発話を個別のトークンに変換する。
さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
論文 参考訳(メタデータ) (2023-05-25T14:39:47Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - FST: the FAIR Speech Translation System for the IWSLT21 Multilingual
Shared Task [36.51221186190272]
IWSLT 2021評価キャンペーンに提出したエンドツーエンドの多言語音声翻訳システムについて述べる。
本システムは,モダリティ,タスク,言語間の伝達学習を活用して構築する。
論文 参考訳(メタデータ) (2021-07-14T19:43:44Z) - ESPnet-ST IWSLT 2021 Offline Speech Translation System [56.83606198051871]
本稿では,ESPnet-STグループによる音声翻訳トラックにおけるIWSLT 2021の提出について述べる。
今年は、データ、アーキテクチャ、オーディオセグメンテーションのトレーニングにさまざまな取り組みを行いました。
私たちの最高のE2Eシステムは、すべてのテクニックをモデルアンサンブルと組み合わせ、31.4BLEUを達成しました。
論文 参考訳(メタデータ) (2021-07-01T17:49:43Z) - Efficient Weight factorization for Multilingual Speech Recognition [67.00151881207792]
エンドツーエンドの多言語音声認識は、多くの言語を含む合成音声コーパスで単一のモデルトレーニングを使用する。
トレーニングデータの各言語には異なる特徴があるため、共有ネットワークは、すべての言語を同時に最適化するのに苦労する可能性がある。
ニューラルネットワークのコア動作をターゲットとした新しい多言語アーキテクチャを提案する:線形変換関数。
論文 参考訳(メタデータ) (2021-05-07T00:12:02Z) - Dual-decoder Transformer for Joint Automatic Speech Recognition and
Multilingual Speech Translation [71.54816893482457]
自動音声認識(ASR)と多言語音声翻訳(ST)を共同で行う新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを導入する。
我々のモデルはオリジナルのTransformerアーキテクチャに基づいているが、2つのデコーダで構成されており、それぞれが1つのタスク(ASRまたはST)を担っている。
論文 参考訳(メタデータ) (2020-11-02T04:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。