論文の概要: ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit
- arxiv url: http://arxiv.org/abs/2304.04596v3
- Date: Thu, 6 Jul 2023 20:07:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 15:23:28.836540
- Title: ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit
- Title(参考訳): ESPnet-ST-v2:多目的音声翻訳ツールキット
- Authors: Brian Yan, Jiatong Shi, Yun Tang, Hirofumi Inaguma, Yifan Peng,
Siddharth Dalmia, Peter Pol\'ak, Patrick Fernandes, Dan Berrebbi, Tomoki
Hayashi, Xiaohui Zhang, Zhaoheng Ni, Moto Hira, Soumi Maiti, Juan Pino,
Shinji Watanabe
- Abstract要約: ESPnet-ST-v2はオープンソースのESPnet-STツールキットを改良したものである。
本稿では,ESPnet-ST-v2の裏側における全体的な設計,各タスクのサンプルモデル,パフォーマンスベンチマークについて述べる。
- 参考スコア(独自算出の注目度): 61.52122386938913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ESPnet-ST-v2 is a revamp of the open-source ESPnet-ST toolkit necessitated by
the broadening interests of the spoken language translation community.
ESPnet-ST-v2 supports 1) offline speech-to-text translation (ST), 2)
simultaneous speech-to-text translation (SST), and 3) offline speech-to-speech
translation (S2ST) -- each task is supported with a wide variety of approaches,
differentiating ESPnet-ST-v2 from other open source spoken language translation
toolkits. This toolkit offers state-of-the-art architectures such as
transducers, hybrid CTC/attention, multi-decoders with searchable
intermediates, time-synchronous blockwise CTC/attention, Translatotron models,
and direct discrete unit models. In this paper, we describe the overall design,
example models for each task, and performance benchmarking behind ESPnet-ST-v2,
which is publicly available at https://github.com/espnet/espnet.
- Abstract(参考訳): ESPnet-ST-v2はオープンソースのESPnet-STツールキットを改良したものである。
ESPnet-ST-v2 のサポート
1)オフライン音声テキスト翻訳(ST)
2)同時音声テキスト翻訳(SST)、及び
3) オフライン音声音声翻訳(S2ST) -- 各タスクは、ESPnet-ST-v2と他のオープンソースの音声翻訳ツールキットを区別して、幅広いアプローチでサポートされている。
このツールキットはトランスデューサ、ハイブリッドCTC/アテンション、検索可能な中間子を持つマルチデコーダ、時間同期ブロックワイドCTC/アテンション、トランスラトトロンモデル、直接離散単位モデルなどの最先端アーキテクチャを提供する。
本稿では,https://github.com/espnet/espnetで公開されているespnet-st-v2の背後にある全体的な設計,各タスクのモデル,パフォーマンスベンチマークについて述べる。
関連論文リスト
- Towards Real-World Streaming Speech Translation for Code-Switched Speech [7.81154319203032]
コードスイッチング(CS)は通信において一般的な現象であり、多くの自然言語処理(NLP)環境では困難である。
我々は、現実のCS音声翻訳に欠かせない2つの領域、すなわちストリーミング設定と第3言語への翻訳に焦点を当てた。
論文 参考訳(メタデータ) (2023-10-19T11:15:02Z) - Enhancing Speech-to-Speech Translation with Multiple TTS Targets [62.18395387305803]
直接S2STモデルに対する合成対象音声の変更の効果を解析する。
異なるTSシステムから複数のターゲットを持つS2STシステムを協調的に最適化するマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-10T14:33:33Z) - End-to-End Speech Translation for Code Switched Speech [13.97982457879585]
コードスイッチング(英: Code switch, CS)とは、異なる言語の単語やフレーズを相互に使用する現象である。
我々は,音声翻訳作業(ST)における英語とスペイン語の会話の文脈において,CSに着目し,書き起こしと翻訳の両方を生成・評価する。
我々のSTアーキテクチャ、特に双方向のエンドツーエンドアーキテクチャは、CS訓練データを使用しなくても、CS音声でよく機能することを示す。
論文 参考訳(メタデータ) (2022-04-11T13:25:30Z) - ESPnet-SLU: Advancing Spoken Language Understanding through ESPnet [95.39817519115394]
ESPnet-SLUは、エンドツーエンドの音声処理ツールキットであるESPnetのプロジェクトである。
単一のフレームワークによる音声言語理解の迅速な開発を目的として設計されている。
論文 参考訳(メタデータ) (2021-11-29T17:05:49Z) - ESPnet2-TTS: Extending the Edge of TTS Research [62.92178873052468]
ESPnet2-TTSは、E2E-TTS(E2E-TTS)ツールキットである。
新機能としては、オンザフライフレキシブルプリプロセッシング、ニューラルボコーダとのジョイントトレーニング、フルバンドE2Eテキスト・トゥ・ウェーブフォームモデリングのような拡張を備えた最先端のTSモデルなどがある。
論文 参考訳(メタデータ) (2021-10-15T03:27:45Z) - Dual-decoder Transformer for Joint Automatic Speech Recognition and
Multilingual Speech Translation [71.54816893482457]
自動音声認識(ASR)と多言語音声翻訳(ST)を共同で行う新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを導入する。
我々のモデルはオリジナルのTransformerアーキテクチャに基づいているが、2つのデコーダで構成されており、それぞれが1つのタスク(ASRまたはST)を担っている。
論文 参考訳(メタデータ) (2020-11-02T04:59:50Z) - ESPnet-ST: All-in-One Speech Translation Toolkit [57.76342114226599]
ESPnet-STは、エンドツーエンドの音声処理ツールキットであるESPnet内の新しいプロジェクトである。
音声認識、機械翻訳、音声翻訳のための音声合成機能を実装する。
データ前処理、特徴抽出、トレーニング、デコードパイプラインを含むオールインワンのレシピを提供します。
論文 参考訳(メタデータ) (2020-04-21T18:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。