Fugu-MT 論文翻訳(概要): Custom Data Augmentation for low resource ASR using Bark and Retrieval-Based Voice Conversion

論文の概要: Custom Data Augmentation for low resource ASR using Bark and Retrieval-Based Voice Conversion

arxiv url: http://arxiv.org/abs/2311.14836v1
Date: Fri, 24 Nov 2023 20:16:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-29 23:23:19.872020
Title: Custom Data Augmentation for low resource ASR using Bark and Retrieval-Based Voice Conversion
Title（参考訳）: Barkと検索音声変換を用いた低リソースASRのためのカスタムデータ拡張
Authors: Anand Kamble, Aniket Tathe, Suyash Kumbharkar, Atharva Bhandare, Anirban C. Mitra
Abstract要約: 本稿では、アンダーリソース言語のためのカスタマイズされた共通音声データセットを構築するための2つの革新的な手法を提案する。最初の方法論は、Sunoが開発したトランスフォーマーベースのテキストオーディオモデルであるBarkを活用し、Metaの enCodecと事前トレーニングされたHuBertモデルを組み込んで、Barkのパフォーマンスを向上させる。第2の方法論は、検索型音声変換(RVC)を採用し、データ準備にOzenツールキットを使用している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper proposes two innovative methodologies to construct customized Common Voice datasets for low-resource languages like Hindi. The first methodology leverages Bark, a transformer-based text-to-audio model developed by Suno, and incorporates Meta's enCodec and a pre-trained HuBert model to enhance Bark's performance. The second methodology employs Retrieval-Based Voice Conversion (RVC) and uses the Ozen toolkit for data preparation. Both methodologies contribute to the advancement of ASR technology and offer valuable insights into addressing the challenges of constructing customized Common Voice datasets for under-resourced languages. Furthermore, they provide a pathway to achieving high-quality, personalized voice generation for a range of applications.
Abstract（参考訳）: 本稿では,Hindiのような低リソース言語向けにカスタマイズされた共通音声データセットを構築するための2つの革新的な手法を提案する。最初の方法論は、Sunoが開発したトランスフォーマーベースのテキストオーディオモデルであるBarkを活用し、Metaの enCodecと事前トレーニングされたHuBertモデルを組み込んで、Barkのパフォーマンスを向上させる。第2の方法論は、検索型音声変換(RVC)を採用し、データ準備にOzenツールキットを使用している。どちらの手法もasr技術の進歩に貢献し、非ソース言語用にカスタマイズされた共通音声データセットを構築するという課題に対する貴重な洞察を提供する。さらに、様々なアプリケーションに対して高品質でパーソナライズされた音声生成を実現するための経路を提供する。

関連論文リスト

Frustratingly Easy Data Augmentation for Low-Resource ASR [8.197070429322798]
音声認識のための自己完結型データ拡張手法を3つ導入する。我々はこれらの手法を極めて限られたリソースを持つ4つの言語に適用する。トレーニング済みのWav2Vec2-XLSR-53モデルをオリジナルオーディオと生成された合成データの組み合わせで微調整すると、性能が大幅に向上する。
論文参考訳（メタデータ） (2025-09-18T19:20:37Z)
WavRAG: Audio-Integrated Retrieval Augmented Generation for Spoken Dialogue Models [49.725968706743586]
WavRAGは、ネイティブなエンドツーエンドオーディオをサポートする最初の検索拡張生成フレームワークである。本稿では,テキストとオーディオのハイブリッド知識ベースからの検索を容易にするために,WavRetrieverを提案する。最先端のASR-Text RAGパイプラインと比較して、WavRAGは10倍の高速化を実現しつつ、同等の検索性能を実現している。
論文参考訳（メタデータ） (2025-02-20T16:54:07Z)
Meta-Whisper: Speech-Based Meta-ICL for ASR on Low-Resource Languages [51.12146889808824]
Meta-Whisperは、低リソース言語の自動音声認識を改善するための新しいアプローチである。これにより、Whisperは、広範囲の微調整をすることなく、馴染みのない言語で音声を認識できる能力を高める。
論文参考訳（メタデータ） (2024-09-16T16:04:16Z)
Speech collage: code-switched audio generation by collaging monolingual corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。 2つのシナリオにおける音声認識における生成データの影響について検討する。
論文参考訳（メタデータ） (2023-09-27T14:17:53Z)
Cross-lingual Knowledge Distillation via Flow-based Voice Conversion for Robust Polyglot Text-To-Speech [6.243356997302935]
本稿では、上流音声変換(VC)モデルと下流音声合成(TTS)モデルを含む、言語間音声合成のためのフレームワークを提案する。最初の2段階では、VCモデルを用いてターゲット話者の発話をターゲット話者の声に変換する。第3段階では、変換されたデータは、対象言語における記録からの言語的特徴や持続時間と組み合わせられ、単一話者音響モデルの訓練に使用される。
論文参考訳（メタデータ） (2023-09-15T09:03:14Z)
Learning Speech Representation From Contrastive Token-Acoustic Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文参考訳（メタデータ） (2023-09-01T12:35:43Z)
Unified model for code-switching speech recognition and language identification based on a concatenated tokenizer [17.700515986659063]
Code-Switching (CS) Multilingual Automatic Speech Recognition (ASR) モデルは会話中に2つ以上の交互言語を含む音声を転写することができる。本稿では,純粋にモノリンガルなデータソースからASRデータセットをコードスイッチングする新しい手法を提案する。新たな Concatenated Tokenizer により、ASR モデルは既存のモノリンガルトークンを再利用しながら、出力されたテキストトークンごとに言語IDを生成することができる。
論文参考訳（メタデータ） (2023-06-14T21:24:11Z)
Iteratively Improving Speech Recognition and Voice Conversion [10.514009693947227]
本稿ではまず,VCモデルのトレーニング中にコンテンツ保存を確保するために使用されるASRモデルをトレーニングする。次のイテレーションでは、データ拡張手法としてVCモデルを使用し、ASRモデルをさらに微調整し、多様な話者に一般化する。改良されたASRモデルをVCモデルと逆転モデルの訓練に反復的に活用することにより、両モデルの改善を実験的に示す。
論文参考訳（メタデータ） (2023-05-24T11:45:42Z)
Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文参考訳（メタデータ） (2022-05-02T17:59:02Z)
ASR data augmentation in low-resource settings using cross-lingual multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文参考訳（メタデータ） (2022-03-29T11:55:30Z)
Neural Model Reprogramming with Similarity Based Mapping for Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。 ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文参考訳（メタデータ） (2021-10-08T05:07:35Z)
An Adaptive Learning based Generative Adversarial Network for One-To-One Voice Conversion [9.703390665821463]
本稿では,効率の良い1対1話者VCのための適応学習型GANモデルであるALGAN-VCを提案する。このモデルは、Voice Conversion Challenge (VCC) 2016、2018、2020データセット、および自己準備のスピーチデータセットでテストされています。生成音声サンプルの主観的および客観的評価は,提案モデルが音声変換タスクをエレガントに実行していることを示した。
論文参考訳（メタデータ） (2021-04-25T13:44:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。