論文の概要: SpeechBrain: A General-Purpose Speech Toolkit
- arxiv url: http://arxiv.org/abs/2106.04624v1
- Date: Tue, 8 Jun 2021 18:22:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 15:19:04.744833
- Title: SpeechBrain: A General-Purpose Speech Toolkit
- Title(参考訳): SpeechBrain: 汎用音声ツールキット
- Authors: Mirco Ravanelli, Titouan Parcollet, Peter Plantinga, Aku Rouhe,
Samuele Cornell, Loren Lugosch, Cem Subakan, Nauman Dawalatabad, Abdelwahab
Heba, Jianyuan Zhong, Ju-Chieh Chou, Sung-Lin Yeh, Szu-Wei Fu, Chien-Feng
Liao, Elena Rastorgueva, Fran\c{c}ois Grondin, William Aris, Hwidong Na, Yan
Gao, Renato De Mori, Yoshua Bengio
- Abstract要約: SpeechBrainはオープンソースでオールインワンの音声ツールキットである。
ニューラル音声処理技術の研究開発を促進するために設計された。
幅広い音声ベンチマークにおいて、競争力や最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 73.0404642815335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SpeechBrain is an open-source and all-in-one speech toolkit. It is designed
to facilitate the research and development of neural speech processing
technologies by being simple, flexible, user-friendly, and well-documented.
This paper describes the core architecture designed to support several tasks of
common interest, allowing users to naturally conceive, compare and share novel
speech processing pipelines. SpeechBrain achieves competitive or
state-of-the-art performance in a wide range of speech benchmarks. It also
provides training recipes, pretrained models, and inference scripts for popular
speech datasets, as well as tutorials which allow anyone with basic Python
proficiency to familiarize themselves with speech technologies.
- Abstract(参考訳): SpeechBrainはオープンソースのオールインワン音声ツールキットである。
シンプルでフレキシブルで、ユーザフレンドリで、ドキュメントの充実によって、ニューラル音声処理技術の研究開発を促進するように設計されている。
本稿では,ユーザが新たな音声処理パイプラインを自然に理解し,比較し,共有できるように,共通するタスクをサポートするように設計されたコアアーキテクチャについて述べる。
SpeechBrainは、幅広い音声ベンチマークにおいて、競争または最先端のパフォーマンスを達成する。
また、一般的な音声データセットのトレーニングレシピ、事前訓練されたモデル、推論スクリプト、および基本的なPython習熟度を持つ誰でも音声技術に精通できるチュートリアルも提供する。
関連論文リスト
- Scaling Speech-Text Pre-training with Synthetic Interleaved Data [31.77653849518526]
音声言語モデル(SpeechLM)は音声入力を受け入れ、音声出力を生成し、より自然な人間とコンピュータの相互作用を可能にする。
従来のSpeechLMの開発手法は、教師なし音声データとパラレル音声テキストデータの可用性の制限によって制約されている。
本稿では,テキストコーパスから得られた大規模合成インターリーブデータを活用することによって,音声テキスト事前学習のスケールアップを行う手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T17:19:09Z) - Open-Source Conversational AI with SpeechBrain 1.0 [32.96166213935756]
SpeechBrainはオープンソースのConversational AIツールキットで、PyTorchをベースとしている。
事前トレーニングされたモデルと、トレーニングに必要なコードとアルゴリズムの完全な“レシピ”の両方をリリースすることで、透明性と複製性を促進する。
論文 参考訳(メタデータ) (2024-06-29T15:20:11Z) - SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition [67.08798754009153]
言語モデルは通常、タスク依存のプロンプトトークンを使用して、様々な音声タスクを単一のモデルに統合する。
本稿では,一組のプロンプトトークンを構成することで共通の音声タスクを統一できる,デコーダのみの音声言語モデルであるSpeechComposerを提案する。
論文 参考訳(メタデータ) (2024-01-31T18:06:29Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - SpeechFormer++: A Hierarchical Efficient Framework for Paralinguistic
Speech Processing [17.128885611538486]
パラ言語音声処理は、感情分析や神経認知障害分析などの多くの問題に対処する上で重要である。
音声の特徴を考察し、パラ言語音声処理のための一般的な構造ベースフレームワークであるSpeechFormer++を提案する。
SpeechFormer++は、音声感情認識(IEMOCAP & MELD)、うつ病分類(DAIC-WOZ)、アルツハイマー病検出(Pitt)タスクに基づいて評価される。
論文 参考訳(メタデータ) (2023-02-27T11:48:54Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - ESPnet-ST: All-in-One Speech Translation Toolkit [57.76342114226599]
ESPnet-STは、エンドツーエンドの音声処理ツールキットであるESPnet内の新しいプロジェクトである。
音声認識、機械翻訳、音声翻訳のための音声合成機能を実装する。
データ前処理、特徴抽出、トレーニング、デコードパイプラインを含むオールインワンのレシピを提供します。
論文 参考訳(メタデータ) (2020-04-21T18:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。