論文の概要: ParCzech4Speech: A New Speech Corpus Derived from Czech Parliamentary Data
- arxiv url: http://arxiv.org/abs/2509.06675v1
- Date: Mon, 08 Sep 2025 13:35:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.150879
- Title: ParCzech4Speech: A New Speech Corpus Derived from Czech Parliamentary Data
- Title(参考訳): ParCzech4Speech:チェコ議会のデータから得られた新しい音声コーパス
- Authors: Vladislav Stankov, Matyáš Kopp, Ondřej Bojar,
- Abstract要約: 本稿ではParCzech 4.0コーパスの処理バージョンであるParCzech4Speech 1.0を紹介する。
データセットは,(1) 自動音声認識とクリーン境界付き音声タスクのための文分割,(2) 文間の元の発話の流れを保ったまま保存する,(3) その他の可能なタスクのさらなるカスタマイズのための生調整,の3つの柔軟なバリエーションで提供される。
- 参考スコア(独自算出の注目度): 0.3441021278275805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce ParCzech4Speech 1.0, a processed version of the ParCzech 4.0 corpus, targeted at speech modeling tasks with the largest variant containing 2,695 hours. We combined the sound recordings of the Czech parliamentary speeches with the official transcripts. The recordings were processed with WhisperX and Wav2Vec 2.0 to extract automated audio-text alignment. Our processing pipeline improves upon the ParCzech 3.0 speech recognition version by extracting more data with higher alignment reliability. The dataset is offered in three flexible variants: (1) sentence-segmented for automatic speech recognition and speech synthesis tasks with clean boundaries, (2) unsegmented preserving original utterance flow across sentences, and (3) a raw-alignment for further custom refinement for other possible tasks. All variants maintain the original metadata and are released under a permissive CC-BY license. The dataset is available in the LINDAT repository, with the sentence-segmented and unsegmented variants additionally available on Hugging Face.
- Abstract(参考訳): 本稿では,ParCzech 4.0コーパスの処理バージョンであるParCzech4Speech 1.0について紹介する。
チェコ議会の演説の録音と公式の写本を組み合わせてみた。
録音はWhisperXとWav2Vec 2.0で処理され、自動音声テキストアライメントが抽出された。
我々の処理パイプラインは、より高いアライメント信頼性でより多くのデータを抽出することにより、ParCzech 3.0音声認識バージョンを改善する。
データセットは,(1) 自動音声認識とクリーン境界付き音声合成タスクのための文分割,(2) 文間の元の発話フローの保存,(3) その他の可能なタスクのさらなるカスタマイズのための原文調整の3つの柔軟なバリエーションで提供される。
全ての派生型はオリジナルのメタデータを保持し、寛容なCC-BYライセンスでリリースされている。
データセットはLINDATレポジトリで利用可能で、文セグメンテーションと未セグメンテーションの亜種はHugging Faceで利用できる。
関連論文リスト
- Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens [31.575335190916995]
本稿では,音声を2つの補完トークンタイプに分解する単一ストリーム音声であるBiCodecを利用した新しいシステムであるSpark-TTSを紹介する。
制御可能なTSの研究を容易にするために,包括的な属性アノテーションを備えた10000時間データセットであるVoxBoxを紹介した。
論文 参考訳(メタデータ) (2025-03-03T16:23:10Z) - Voxtlm: unified decoder-only models for consolidating speech
recognition/synthesis and speech/text continuation tasks [61.3055230762097]
音声認識,音声合成,テキスト生成,音声継続の4つのタスクを実行できるデコーダのみの言語モデルであるVoxtLMを提案する。
VoxtLMは、テキスト語彙を自己教師付き音声特徴から独立した音声トークンと統合し、マルチタスク学習を可能にするために特別なトークンを使用する。
論文 参考訳(メタデータ) (2023-09-14T03:13:18Z) - Cross-Utterance Conditioned VAE for Speech Generation [27.5887600344053]
本稿では,CUC-VAE S2フレームワークを用いて,韻律の強化と自然な音声生成を実現する。
CUC-VAE TTS for text-to-speech と CUC-VAE SE for speech editor の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-08T06:48:41Z) - UnifySpeech: A Unified Framework for Zero-shot Text-to-Speech and Voice
Conversion [63.346825713704625]
テキスト音声変換(TTS, Text-to-Speech)と音声変換(VC)は2つの異なるタスクであり, 音質の異なる音質で音声を合成することを目的としている。
本稿では,TSとVCを統合フレームワークに初めて導入するUnifySpeechを提案する。
論文 参考訳(メタデータ) (2023-01-10T06:06:57Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。