論文の概要: NeurST: Neural Speech Translation Toolkit
- arxiv url: http://arxiv.org/abs/2012.10018v1
- Date: Fri, 18 Dec 2020 02:33:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-05-01 18:05:32.834751
- Title: NeurST: Neural Speech Translation Toolkit
- Title(参考訳): NeurST: ニューラルネットワーク翻訳ツールキット
- Authors: Chengqi Zhao and Mingxuan Wang and Lei Li
- Abstract要約: NeurSTは、ByteDance AI Labが開発したニューラルネットワーク翻訳のためのオープンソースのツールキットです。
主にエンドツーエンドの音声翻訳に焦点を当てており、高度な音声翻訳の研究や製品に簡単に使用、修正、拡張できます。
- 参考スコア(独自算出の注目度): 13.68036533544182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: NeurST is an open-source toolkit for neural speech translation developed by
ByteDance AI Lab. The toolkit mainly focuses on end-to-end speech translation,
which is easy to use, modify, and extend to advanced speech translation
research and products. NeurST aims at facilitating the speech translation
research for NLP researchers and provides a complete setup for speech
translation benchmarks, including feature extraction, data preprocessing,
distributed training, and evaluation. Moreover, The toolkit implements several
major architectures for end-to-end speech translation. It shows experimental
results for different benchmark datasets, which can be regarded as reliable
baselines for future research. The toolkit is publicly available at
https://github.com/bytedance/neurst.
- Abstract(参考訳): NeurSTはByteDance AI Labが開発した、ニューラルネットワーク翻訳のためのオープンソースのツールキットである。
このツールキットは主にエンドツーエンドの音声翻訳に焦点を当てており、使用、修正、高度な音声翻訳研究や製品への拡張が容易である。
neurstは、nlp研究者のための音声翻訳研究の促進を目標とし、特徴抽出、データ前処理、分散トレーニング、評価を含む音声翻訳ベンチマークの完全なセットアップを提供する。
さらに、このツールキットは、エンドツーエンドの音声翻訳のためのいくつかの主要なアーキテクチャを実装している。
これは、様々なベンチマークデータセットの実験結果を示し、将来の研究の信頼性の高いベースラインと見なすことができる。
このツールキットはhttps://github.com/bytedance/neurstで公開されている。
関連論文リスト
- Simultaneous Speech-to-Speech Translation Without Aligned Data [52.467808474293605]
同時音声翻訳では、ソース音声を対象言語にリアルタイムで翻訳する必要がある。
単語レベルのアライメントを完全に不要にするヒビキゼロを提案する。
Hibiki-Zeroは5つのX-英語タスクの翻訳精度、レイテンシ、音声転送、自然性において最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-11T17:41:01Z) - Improving Indigenous Language Machine Translation with Synthetic Data and Language-Specific Preprocessing [5.781452568978427]
我々は,高容量多言語翻訳モデルを用いて合成文対を生成することで,アメリカ大陸の言語に対する並列データセットを拡張した。
グアラニ・スペイン語とケチュア・スペイン語の翻訳実験は、合成データ拡張による一貫したchrF++の改善を示している。
Aymaraの診断実験は、高度に凝集的な言語に対する一般的な前処理の限界を強調している。
論文 参考訳(メタデータ) (2026-01-06T16:06:42Z) - Data Augmentation With Back translation for Low Resource languages: A case of English and Luganda [0.0]
本稿では,英語とルガンダ語を併用したニューラル機械翻訳モデルを構築するための半教師付き手法として,バック翻訳の適用について検討する。
提案手法では,公開データとウェブクローリングデータの両方を用いて独自のNMTモデルを構築し,反復および増分バック翻訳手法を適用した。
その結果,英ラガンダ対の翻訳性能は,全翻訳方向の10点以上のBLEUスコアユニットで過去のベンチマークを上回った。
論文 参考訳(メタデータ) (2025-05-05T08:47:52Z) - Hindi to English: Transformer-Based Neural Machine Translation [0.0]
我々は,インド語ヒンディー語から英語への翻訳のためにトランスフォーマーモデルを訓練し,機械翻訳(NMT)システムを開発した。
トレーニングデータを増強し、語彙を作成するために、バックトランスレーションを実装した。
これにより、IIT Bombay English-Hindi Corpusのテストセットで、最先端のBLEUスコア24.53を達成することができました。
論文 参考訳(メタデータ) (2023-09-23T00:00:09Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - SpeechBrain: A General-Purpose Speech Toolkit [73.0404642815335]
SpeechBrainはオープンソースでオールインワンの音声ツールキットである。
ニューラル音声処理技術の研究開発を促進するために設計された。
幅広い音声ベンチマークにおいて、競争力や最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-08T18:22:56Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - The Multilingual TEDx Corpus for Speech Recognition and Translation [30.993199499048824]
音声認識(ASR)および音声翻訳(ST)研究を支援するために構築された多言語TEDxコーパスについて述べる。
コーパスはTEDxの8つのソース言語による音声録音のコレクションである。
テキストを文に分割し、ソース言語音声とターゲット言語翻訳に合わせる。
論文 参考訳(メタデータ) (2021-02-02T21:16:25Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - "Listen, Understand and Translate": Triple Supervision Decouples
End-to-end Speech-to-text Translation [49.610188741500274]
エンドツーエンドの音声テキスト翻訳(ST)は、ソース言語で音声を取り、ターゲット言語でテキストを出力する。
既存の方法は並列コーパスの量によって制限される。
並列STコーパスで信号を完全に活用するシステムを構築した。
論文 参考訳(メタデータ) (2020-09-21T09:19:07Z) - An Augmented Translation Technique for low Resource language pair:
Sanskrit to Hindi translation [0.0]
本研究では、低リソース言語ペアに対してZST(Zero Shot Translation)を検査する。
サンスクリット語からヒンディー語への翻訳では、データが不足しているのと同じアーキテクチャがテストされている。
データストレージのメモリ使用量を削減するため,単語埋め込みの次元化を行う。
論文 参考訳(メタデータ) (2020-06-09T17:01:55Z) - ESPnet-ST: All-in-One Speech Translation Toolkit [57.76342114226599]
ESPnet-STは、エンドツーエンドの音声処理ツールキットであるESPnet内の新しいプロジェクトである。
音声認識、機械翻訳、音声翻訳のための音声合成機能を実装する。
データ前処理、特徴抽出、トレーニング、デコードパイプラインを含むオールインワンのレシピを提供します。
論文 参考訳(メタデータ) (2020-04-21T18:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。