論文の概要: JoeyS2T: Minimalistic Speech-to-Text Modeling with JoeyNMT
- arxiv url: http://arxiv.org/abs/2210.02545v1
- Date: Wed, 5 Oct 2022 20:19:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 17:30:50.475095
- Title: JoeyS2T: Minimalistic Speech-to-Text Modeling with JoeyNMT
- Title(参考訳): JoeyS2T: JoeyNMT を用いた最小音声テキストモデリング
- Authors: Mayumi Ohta, Julia Kreutzer, Stefan Riezler
- Abstract要約: JoeyS2Tは、自動音声認識やエンドツーエンド音声翻訳など、音声からテキストへのタスクのためのJoeyNMT拡張である。
これはPyTorch上に構築された最小限のNMTツールキットであるJoeyNMTのコア哲学を継承し、シンプルさとアクセシビリティを求める。
JoeyS2Tは英語の音声認識とドイツ語の音声翻訳ベンチマークで競合する。
- 参考スコア(独自算出の注目度): 20.647421751914457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: JoeyS2T is a JoeyNMT extension for speech-to-text tasks such as automatic
speech recognition and end-to-end speech translation. It inherits the core
philosophy of JoeyNMT, a minimalist NMT toolkit built on PyTorch, seeking
simplicity and accessibility. JoeyS2T's workflow is self-contained, starting
from data pre-processing, over model training and prediction to evaluation, and
is seamlessly integrated into JoeyNMT's compact and simple code base. On top of
JoeyNMT's state-of-the-art Transformer-based encoder-decoder architecture,
JoeyS2T provides speech-oriented components such as convolutional layers,
SpecAugment, CTC-loss, and WER evaluation. Despite its simplicity compared to
prior implementations, JoeyS2T performs competitively on English speech
recognition and English-to-German speech translation benchmarks. The
implementation is accompanied by a walk-through tutorial and available on
https://github.com/may-/joeys2t.
- Abstract(参考訳): JoeyS2Tは、自動音声認識やエンドツーエンドの音声翻訳などの音声テキストタスクのためのJoeyNMT拡張である。
これはPyTorch上に構築された最小限のNMTツールキットであるJoeyNMTのコア哲学を継承し、シンプルさとアクセシビリティを求める。
JoeyS2Tのワークフローは、データ前処理からモデルトレーニング、予測から評価まで、自己完結型で、JoeyNMTのコンパクトでシンプルなコードベースにシームレスに統合されている。
JoeyNMTの最先端のトランスフォーマーベースのエンコーダデコーダアーキテクチャに加えて、JoeyS2Tは畳み込み層、SpecAugment、CTC-loss、WER評価などの音声指向のコンポーネントを提供する。
従来の実装に比べて単純であるにもかかわらず、JoeyS2Tは英語の音声認識とドイツ語の音声翻訳ベンチマークで競争力がある。
実装にはチュートリアルが付属しており、https://github.com/may-/joeys2tで利用可能である。
関連論文リスト
- CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer [39.31849739010572]
textbfGenerative textbfPre-trained textbfSpeech textbfTransformer (GPST)を紹介する。
GPSTは効率的な音声言語モデリングのために設計された階層変換器である。
論文 参考訳(メタデータ) (2024-06-03T04:16:30Z) - BASE TTS: Lessons from building a billion-parameter Text-to-Speech model
on 100K hours of data [15.447206120523356]
BASE TTSは、これまでで最大のTSモデルであり、パブリックドメインの音声データ100K時間で訓練されている。
10K以上の時間と500M以上のパラメータで構築されたBASE TTSの変種が、テキストに複雑な文に自然な韻律を呈示し始めることを示す。
論文 参考訳(メタデータ) (2024-02-12T22:21:30Z) - Code-Mixed Text to Speech Synthesis under Low-Resource Constraints [6.544954579068865]
本稿では,eコマースアプリケーション向けに構築されたHindi-English TTSシステムについて述べる。
本稿では,個々の言語におけるモノリンガルデータセットを利用したデータ指向手法を提案する。
純粋なコード混在テストセットでは、コード混在のない単一のスクリプトバイランガルトレーニングが有効であることを示す。
論文 参考訳(メタデータ) (2023-12-02T10:40:38Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation [66.92823764664206]
テキストに音声表現を適応させる新しいトランスフォーマーベースのモジュールであるM-Adapterを提案する。
音声シーケンスを縮小しながら、M-Adapterは音声からテキストへの翻訳に必要な機能を生成する。
実験の結果,我々のモデルは最大1BLEUで強いベースラインを達成できた。
論文 参考訳(メタデータ) (2022-07-03T04:26:53Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - GraphSpeech: Syntax-Aware Graph Attention Network For Neural Speech
Synthesis [79.1885389845874]
Transformer-based end-to-end text-to-speech synthesis (TTS)は、このような実装の成功例の一つである。
本稿では,グラフニューラルネットワークフレームワークで定式化された新しいニューラルネットワークモデルであるGraphSpeechを提案する。
実験により、GraphSpeechは、発話のスペクトルと韻律レンダリングの点で、Transformer TTSベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2020-10-23T14:14:06Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。