論文の概要: Saar-Voice: A Multi-Speaker Saarbrücken Dialect Speech Corpus
- arxiv url: http://arxiv.org/abs/2604.11803v1
- Date: Mon, 13 Apr 2026 17:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.74655
- Title: Saar-Voice: A Multi-Speaker Saarbrücken Dialect Speech Corpus
- Title(参考訳): Saar-Voice: 複数話者Saarbrücken音声コーパス
- Authors: Lena S. Oberkircher, Jesujoba O. Alabi, Dietrich Klakow, Jürgen Trouvain,
- Abstract要約: ザール=ヴォイツェ(ドイツ語: Saar-Voice)は、ドイツ語のサールブリュッケン方言の6時間の音声コーパスである。
このテキストのサブセットは9人の話者によって記録された。
本稿では,正書法および話者変動に関する方法論的課題について論じる。
- 参考スコア(独自算出の注目度): 21.010357388387842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language processing (NLP) and speech technologies have made significant progress in recent years; however, they remain largely focused on standardized language varieties. Dialects, despite their cultural significance and widespread use, are underrepresented in linguistic resources and computational models, resulting in performance disparities. To address this gap, we introduce Saar-Voice, a six-hour speech corpus for the Saarbrücken dialect of German. The dataset was created by first collecting text through digitized books and locally sourced materials. A subset of this text was recorded by nine speakers, and we conducted analyses on both the textual and speech components to assess the dataset's characteristics and quality. We discuss methodological challenges related to orthographic and speaker variation, and explore grapheme-to-phoneme (G2P) conversion. The resulting corpus provides aligned textual and audio representations. This serves as a foundation for future research on dialect-aware text-to-speech (TTS), particularly in low-resource scenarios, including zero-shot and few-shot model adaptation.
- Abstract(参考訳): 自然言語処理(NLP)と音声技術は近年大きな進歩を遂げているが、それらは依然として標準化された言語品種に重点を置いている。
方言は、その文化的重要性と広く使われているにもかかわらず、言語資源や計算モデルでは不足しており、結果として性能格差が生じる。
このギャップに対処するために、ドイツ語のザールブリュッケン方言のための6時間の音声コーパスであるサール=ヴォイツェを紹介する。
データセットは、まずデジタル化された書籍とローカルにソースされた資料を通してテキストを収集して作成されました。
このテキストのサブセットを9人の話者で記録し,その特徴と質を評価するために,テキスト成分と音声成分の両方について分析を行った。
正書法と話者変動に関する方法論的課題を論じ,G2P変換を探求する。
得られたコーパスは、一致したテキストと音声の表現を提供する。
これは、特にゼロショットや少数ショットモデル適応を含む低リソースシナリオにおいて、方言対応のテキスト音声(TTS)に関する将来の研究の基盤となる。
関連論文リスト
- DEBATE: A Dataset for Disentangling Textual Ambiguity in Mandarin Through Speech [11.79037119988533]
本稿では,中国独自の音声テキストデータセットであるDEBATEについて述べる。
10人の母語話者によって記録された1,001の丁寧に選択されたあいまいな発話を含んでいる。
我々は、機械と人間の発話意図の理解の間には、明確で大きなパフォーマンスギャップがあることを示す、最先端の3つの大規模音声および音声言語モデルをベンチマークする。
論文 参考訳(メタデータ) (2025-06-09T07:27:22Z) - Do Audio-Language Models Understand Linguistic Variations? [42.17718387132912]
Open-vocabulary Audio Language Model (ALM)は、自然言語クエリを用いた音声テキスト検索の新しいパラダイムである。
本稿では,言語変化に対する音声表現を学習するための新しい,計算効率の高い手法であるRobostCLAPを提案する。
論文 参考訳(メタデータ) (2024-10-21T20:55:33Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Toward Joint Language Modeling for Speech Units and Text [89.32163954508489]
音声単位とテキストの共用言語モデリングについて検討する。
音声とテキストの混在度を評価するための自動計測手法を提案する。
提案手法を用いて音声単位とテキストを混合することにより,SLUタスクにおける音声のみのベースラインを改良することを示す。
論文 参考訳(メタデータ) (2023-10-12T20:53:39Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - End-to-End Automatic Speech Recognition model for the Sudanese Dialect [0.0]
本稿では,スーダン方言における音声認識モデルの設計の可能性を検討する。
本稿では,スーダン方言の概要と表現資源の収集作業,および質素なデータセット構築のための前処理について述べる。
設計されたモデルは、現在の認識タスクに関するいくつかの洞察を与え、平均的なラベルエラーレート73.67%に達した。
論文 参考訳(メタデータ) (2022-12-21T07:35:33Z) - Cross-lingual Low Resource Speaker Adaptation Using Phonological
Features [2.8080708404213373]
我々は、異なる言語に共通する音韻的特徴のセットに基づいて、言語に依存しないマルチスピーカモデルを訓練する。
対象話者データの32と8の発声で、対応する文献に匹敵する高い話者類似度スコアと自然性を得る。
論文 参考訳(メタデータ) (2021-11-17T12:33:42Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。