論文の概要: textless-lib: a Library for Textless Spoken Language Processing
- arxiv url: http://arxiv.org/abs/2202.07359v1
- Date: Tue, 15 Feb 2022 12:39:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 21:51:23.678354
- Title: textless-lib: a Library for Textless Spoken Language Processing
- Title(参考訳): textless-lib:textless Spoken Language Processingのためのライブラリ
- Authors: Eugene Kharitonov and Jade Copet and Kushal Lakhotia and Tu Anh Nguyen
and Paden Tomasello and Ann Lee and Ali Elkahky and Wei-Ning Hsu and
Abdelrahman Mohamed and Emmanuel Dupoux and Yossi Adi
- Abstract要約: 我々はPyTorchベースのライブラリであるtextless-libを紹介した。
ライブラリが提供するビルディングブロックを説明し、そのユーザビリティを実証する。
- 参考スコア(独自算出の注目度): 50.070693765984075
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Textless spoken language processing research aims to extend the applicability
of standard NLP toolset onto spoken language and languages with few or no
textual resources. In this paper, we introduce textless-lib, a PyTorch-based
library aimed to facilitate research in this research area. We describe the
building blocks that the library provides and demonstrate its usability by
discuss three different use-case examples: (i) speaker probing, (ii) speech
resynthesis and compression, and (iii) speech continuation. We believe that
textless-lib substantially simplifies research the textless setting and will be
handful not only for speech researchers but also for the NLP community at
large. The code, documentation, and pre-trained models are available at
https://github.com/facebookresearch/textlesslib/ .
- Abstract(参考訳): テキストレス音声言語処理研究は、標準nlpツールセットを音声言語や言語に適用可能にすることを目的としている。
本稿では,この研究分野の研究を容易にすることを目的としたpytorchベースのライブラリであるtextless-libを提案する。
ライブラリが提供するビルディングブロックについて説明するとともに,3つの異なるユースケースについて論じて,そのユーザビリティを実証する。
(i)話者探索,
(ii)音声の再生・圧縮、及び
(iii)発話継続。
我々は、テキストレスlibは、テキストレスセッティングを実質的に単純化し、音声研究者だけでなく、NLPコミュニティ全体にとっても一握りのものになるだろうと考えている。
コード、ドキュメンテーション、事前学習されたモデルはhttps://github.com/facebookresearch/textlesslib/で入手できる。
関連論文リスト
- VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - Towards Zero-Shot Text-To-Speech for Arabic Dialects [16.10882912169842]
ZS-TTS (Zero-shot Multi-Speaker text-to-speech) システムは英語に進歩しているが、リソース不足のためまだ遅れている。
まず、既存のデータセットを音声合成のニーズに合わせて適応させることにより、アラビア語のこのギャップに対処する。
アラビア語の方言識別モデルを用いて、予め定義された方言ラベルが多言語環境でのZS-TTSモデルの改善に与える影響を探索する。
論文 参考訳(メタデータ) (2024-06-24T15:58:15Z) - Most Language Models can be Poets too: An AI Writing Assistant and
Constrained Text Generation Studio [0.5097809301149341]
ほとんどの言語モデルは、大きな制約の下でも魅力的なテキストを生成する。
本稿では,言語モデルの語彙にフィルタ関数を合成することにより,言語モデルの出力を変更する手法を提案する。
また,この技術であるGadsbyを紹介するHuggingfaceスペースWebアプリケーションについても紹介する。
論文 参考訳(メタデータ) (2023-06-28T05:10:51Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - NeMo Toolbox for Speech Dataset Construction [11.494290433050624]
音声データセット構築パイプラインの各ステップに、データ前処理、音声テキストアライメント、データ後処理、フィルタリングを含むツールを開発する。
LibriVoxオーディオブックからロシアのLibriSpeechコーパス(RuLS)を構築し、ツールボックスの効率を実証しました。
論文 参考訳(メタデータ) (2021-04-11T01:57:55Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - "Listen, Understand and Translate": Triple Supervision Decouples
End-to-end Speech-to-text Translation [49.610188741500274]
エンドツーエンドの音声テキスト翻訳(ST)は、ソース言語で音声を取り、ターゲット言語でテキストを出力する。
既存の方法は並列コーパスの量によって制限される。
並列STコーパスで信号を完全に活用するシステムを構築した。
論文 参考訳(メタデータ) (2020-09-21T09:19:07Z) - Contextualized Spoken Word Representations from Convolutional
Autoencoders [2.28438857884398]
本稿では,畳み込み型オートエンコーダに基づくニューラルアーキテクチャを提案し,様々な長さの音声単語の構文的かつ意味論的に適切な文脈化表現をモデル化する。
提案モデルでは,他の2つの言語モデルと比較して頑健性を示すことができた。
論文 参考訳(メタデータ) (2020-07-06T16:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。