論文の概要: Improving Low-Resource Dialect Classification Using Retrieval-based Voice Conversion
- arxiv url: http://arxiv.org/abs/2507.03641v1
- Date: Fri, 04 Jul 2025 15:14:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.815264
- Title: Improving Low-Resource Dialect Classification Using Retrieval-based Voice Conversion
- Title(参考訳): 検索音声変換を用いた低リソース辞書分類の改善
- Authors: Lea Fischbach, Akbar Karimi, Caroline Kleen, Alfred Lameli, Lucie Flek,
- Abstract要約: 本稿では,低リソースなドイツ語方言分類タスクにおいて,音声変換を効果的なデータ拡張手法として用いることを提案する。
音声サンプルを均一なターゲット話者に変換することにより、RVCは話者に関連する変動を最小限に抑え、モデルは方言固有の言語的特徴と音声的特徴に集中することができる。
- 参考スコア(独自算出の注目度): 6.239015118429602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models for dialect identification are often limited by the scarcity of dialectal data. To address this challenge, we propose to use Retrieval-based Voice Conversion (RVC) as an effective data augmentation method for a low-resource German dialect classification task. By converting audio samples to a uniform target speaker, RVC minimizes speaker-related variability, enabling models to focus on dialect-specific linguistic and phonetic features. Our experiments demonstrate that RVC enhances classification performance when utilized as a standalone augmentation method. Furthermore, combining RVC with other augmentation methods such as frequency masking and segment removal leads to additional performance gains, highlighting its potential for improving dialect classification in low-resource scenarios.
- Abstract(参考訳): 方言識別のための深層学習モデルは、方言データの不足によって制限されることが多い。
この課題に対処するために、低リソースドイツ語方言分類タスクの効果的なデータ拡張手法として、検索型音声変換(RVC)を提案する。
音声サンプルを均一なターゲット話者に変換することにより、RVCは話者に関連する変動を最小限に抑え、モデルは方言固有の言語的特徴と音声的特徴に集中することができる。
実験により, RVCは, 独立拡張法としての利用により, 分類性能の向上を図っている。
さらに、RVCと周波数マスキングやセグメント除去といった他の拡張手法を組み合わせることで、低リソースシナリオにおける方言分類の改善の可能性を強調し、さらなるパフォーマンス向上につながる。
関連論文リスト
- MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models [48.44820587495038]
自己教師付き表現学習(SSRL)は、音素認識を含むタスクの教師付きモデルよりも優れた性能を示した。
SSRLモデルのトレーニングは、十分な事前学習データが入手できない低リソース言語にとって課題となる。
本稿では,低リソース環境下でのSSRLモデルの事前学習にピッチ変動,雑音付加,アクセント付きターゲット言語,その他の言語音声を用いることを提案し,音素認識の評価を行う。
論文 参考訳(メタデータ) (2023-09-22T10:09:09Z) - Robust Disentangled Variational Speech Representation Learning for
Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。
任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。
TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文 参考訳(メタデータ) (2022-03-30T23:03:19Z) - Training Robust Zero-Shot Voice Conversion Models with Self-supervised
Features [24.182732872327183]
Unsampling Zero-Shot Voice Conversion (VC) は、発話の話者特性を未確認のターゲット話者に合わせるように修正することを目的としている。
長さ再構成デコーダを用いて高品質なオーディオサンプルを作成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-08T17:27:39Z) - Voice Conversion Can Improve ASR in Very Low-Resource Settings [32.170748231414365]
本稿では,低音源音声認識を改善するために,VCシステムが言語横断的に利用できるかどうかを検討する。
私たちは、英語で実践的なVCシステムを設計し、訓練するために、最近のいくつかのテクニックを組み合わせています。
その結果,低リソース言語4言語すべてにおいて,有意な量の拡張データを使用する場合,音声認識性能が向上することが判明した。
論文 参考訳(メタデータ) (2021-11-04T07:57:00Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - An Adaptive Learning based Generative Adversarial Network for One-To-One
Voice Conversion [9.703390665821463]
本稿では,効率の良い1対1話者VCのための適応学習型GANモデルであるALGAN-VCを提案する。
このモデルは、Voice Conversion Challenge (VCC) 2016、2018、2020データセット、および自己準備のスピーチデータセットでテストされています。
生成音声サンプルの主観的および客観的評価は,提案モデルが音声変換タスクをエレガントに実行していることを示した。
論文 参考訳(メタデータ) (2021-04-25T13:44:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。