論文の概要: ESPnet-EZ: Python-only ESPnet for Easy Fine-tuning and Integration
- arxiv url: http://arxiv.org/abs/2409.09506v1
- Date: Sat, 14 Sep 2024 19:03:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 20:27:38.574227
- Title: ESPnet-EZ: Python-only ESPnet for Easy Fine-tuning and Integration
- Title(参考訳): ESPnet-EZ: 簡単な微調整と統合のためのPythonのみのESPnet
- Authors: Masao Someki, Kwanghee Choi, Siddhant Arora, William Chen, Samuele Cornell, Jionghao Han, Yifan Peng, Jiatong Shi, Vaibhav Srivastav, Shinji Watanabe,
- Abstract要約: ESPnet-EZはオープンソースの音声処理ツールキットであるESPnetの拡張である。
音声モデルの開発を迅速かつ容易に行うことを目的としている。
- 参考スコア(独自算出の注目度): 54.53405886636696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce ESPnet-EZ, an extension of the open-source speech processing toolkit ESPnet, aimed at quick and easy development of speech models. ESPnet-EZ focuses on two major aspects: (i) easy fine-tuning and inference of existing ESPnet models on various tasks and (ii) easy integration with popular deep neural network frameworks such as PyTorch-Lightning, Hugging Face transformers and datasets, and Lhotse. By replacing ESPnet design choices inherited from Kaldi with a Python-only, Bash-free interface, we dramatically reduce the effort required to build, debug, and use a new model. For example, to fine-tune a speech foundation model, ESPnet-EZ, compared to ESPnet, reduces the number of newly written code by 2.7x and the amount of dependent code by 6.7x while dramatically reducing the Bash script dependencies. The codebase of ESPnet-EZ is publicly available.
- Abstract(参考訳): 本稿では,オープンソースの音声処理ツールキット ESPnet の拡張である ESPnet-EZ について紹介する。
ESPnet-EZは2つの主要な側面に焦点を当てている。
(i)各種タスクにおける既存のESPnetモデルの微調整と推測を容易にすること。
(ii) PyTorch-Lightning、Hugging Face Transformerとデータセット、Lhotseといった一般的なディープニューラルネットワークフレームワークとの統合が容易である。
Kaldiから受け継いだESPnetの設計選択をPythonのみのBashフリーインターフェースに置き換えることで、新しいモデルの構築、デバッグ、使用に必要な労力を大幅に削減する。
例えば、音声基礎モデルのESPnet-EZをESPnetと比較すると、新たに書かれたコードの数は2.7倍、依存するコードの量は6.7倍、Bashスクリプトの依存関係は劇的に減少する。
ESPnet-EZのコードベースは公開されている。
関連論文リスト
- ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models [51.35570730554632]
ESPnet-SPKは、話者埋め込み抽出器を訓練するためのツールキットである。
我々は、x-vectorから最近のSKA-TDNNまで、いくつかのモデルを提供している。
開発モデルと他のドメインとの橋渡しも目指しています。
論文 参考訳(メタデータ) (2024-01-30T18:18:27Z) - ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit [61.52122386938913]
ESPnet-ST-v2はオープンソースのESPnet-STツールキットを改良したものである。
本稿では,ESPnet-ST-v2の裏側における全体的な設計,各タスクのサンプルモデル,パフォーマンスベンチマークについて述べる。
論文 参考訳(メタデータ) (2023-04-10T14:05:22Z) - SchNetPack 2.0: A neural network toolbox for atomistic machine learning [3.849857432787595]
SchNetPackは、メソッド開発要件と原子論的機械学習の適用の両方に対処する汎用ニューラルネットワークツールボックスである。
バージョン2.0には、改良されたデータパイプライン、同変ニューラルネットワーク用のモジュール、分子動力学のPyTorch実装が含まれている。
論文 参考訳(メタデータ) (2022-12-11T14:44:56Z) - ESPnet-SE++: Speech Enhancement for Robust Speech Recognition,
Translation, and Understanding [86.47555696652618]
本稿では,音声分離と拡張をESPnetツールキットに統合する最近の進歩について述べる。
新しいインタフェースは、音声認識(ASR)、音声翻訳(ST)、音声言語理解(SLU)など、音声強調フロントエンドと他のタスクを併用するように設計されている。
その結果,SEフロントエンドとバックエンドタスクの統合は,ASR以外のタスクにおいても有望な研究方向であることが示唆された。
論文 参考訳(メタデータ) (2022-07-19T18:55:29Z) - ESPnet-SLU: Advancing Spoken Language Understanding through ESPnet [95.39817519115394]
ESPnet-SLUは、エンドツーエンドの音声処理ツールキットであるESPnetのプロジェクトである。
単一のフレームワークによる音声言語理解の迅速な開発を目的として設計されている。
論文 参考訳(メタデータ) (2021-11-29T17:05:49Z) - ESPnet-ST: All-in-One Speech Translation Toolkit [57.76342114226599]
ESPnet-STは、エンドツーエンドの音声処理ツールキットであるESPnet内の新しいプロジェクトである。
音声認識、機械翻訳、音声翻訳のための音声合成機能を実装する。
データ前処理、特徴抽出、トレーニング、デコードパイプラインを含むオールインワンのレシピを提供します。
論文 参考訳(メタデータ) (2020-04-21T18:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。