論文の概要: ParlaSpeech 3.0: Richly Annotated Spoken Parliamentary Corpora of Croatian, Czech, Polish, and Serbian
- arxiv url: http://arxiv.org/abs/2511.01619v1
- Date: Mon, 03 Nov 2025 14:27:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.296221
- Title: ParlaSpeech 3.0: Richly Annotated Spoken Parliamentary Corpora of Croatian, Czech, Polish, and Serbian
- Title(参考訳): ParlaSpeech 3.0: クロアチア、チェコ、ポーランド、セルビアの豊かな注釈付き議会コーパス
- Authors: Nikola Ljubešić, Peter Rupnik, Ivan Porupski, Taja Kuzman Pungeršek,
- Abstract要約: パラスペーチ(ParlaSpeech)は、スラヴ語、チェコ語、ポーランド語、セルビア語の4つの言語にまたがる話し言葉のコーパスである。
コーパスは、パルラミント文字とそれに対応するメタデータから自動で構築され、それぞれの議会の演説記録に一致した。
- 参考スコア(独自算出の注目度): 0.5666456827479577
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: ParlaSpeech is a collection of spoken parliamentary corpora currently spanning four Slavic languages - Croatian, Czech, Polish and Serbian - all together 6 thousand hours in size. The corpora were built in an automatic fashion from the ParlaMint transcripts and their corresponding metadata, which were aligned to the speech recordings of each corresponding parliament. In this release of the dataset, each of the corpora is significantly enriched with various automatic annotation layers. The textual modality of all four corpora has been enriched with linguistic annotations and sentiment predictions. Similar to that, their spoken modality has been automatically enriched with occurrences of filled pauses, the most frequent disfluency in typical speech. Two out of the four languages have been additionally enriched with detailed word- and grapheme-level alignments, and the automatic annotation of the position of primary stress in multisyllabic words. With these enrichments, the usefulness of the underlying corpora has been drastically increased for downstream research across multiple disciplines, which we showcase through an analysis of acoustic correlates of sentiment. All the corpora are made available for download in JSONL and TextGrid formats, as well as for search through a concordancer.
- Abstract(参考訳): ParlaSpeechは4つのスラヴ語(クロアチア語、チェコ語、ポーランド語、セルビア語)にまたがる話し言葉のコーパスである。
コーパスは、パルラミント文字とそれに対応するメタデータから自動で構築され、それぞれの議会の演説記録に一致した。
データセットの今回のリリースでは、各コーパスにさまざまな自動アノテーションレイヤが組み込まれている。
4つのコーパスのテキストのモダリティは、言語アノテーションや感情予測に富んでいる。
それと同様に、彼らの話のモダリティは、典型的な音声における最も頻繁な拡散である、充満停止の発生によって自動的に豊かにされている。
4言語のうち2言語は、詳細な単語レベルのアライメントと多音節語の一次応力位置の自動アノテーションが加わった。
これらの豊かさにより、複数の分野にわたる下流研究において、基礎となるコーパスの有用性が飛躍的に向上し、音響的相関感の分析を通して紹介する。
コーパスはすべてJSONLとTextGridフォーマットでダウンロードでき、コンコーダによる検索も可能だ。
関連論文リスト
- The ParlaSpeech Collection of Automatically Generated Speech and Text Datasets from Parliamentary Proceedings [0.0]
我々は,低リソース言語による大規模かつオープンな音声・テキスト対応データセットを構築するためのアプローチを提案する。
我々は3つのスラヴ語、すなわちクロアチア語、ポーランド語、セルビア語に焦点を当てている。
このパイロット実行の結果は、5000時間以上のスピーチと付随するテキストの書き起こしにまたがる、高品質な3つのデータセットである。
論文 参考訳(メタデータ) (2024-09-23T10:12:18Z) - Wav2Gloss: Generating Interlinear Glossed Text from Speech [78.64412090339044]
音声から4つの言語アノテーションを自動抽出するタスクであるWav2Glossを提案する。
音声からのインターリニア・グロッシド・テキスト・ジェネレーションの今後の研究の基盤となる基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-03-19T21:45:29Z) - CLASSLA-web: Comparable Web Corpora of South Slavic Languages Enriched with Linguistic and Genre Annotation [4.450536872346658]
本稿では,スロベニア人,クロアチア人,ボスニア人,モンテネグロ人,セルビア人,マケドニア人,ブルガリア人のウェブコーパスを比較検討する。
これらのコーパスの収集には、合計で2600万件の文書から13億件のトークンが含まれている。
全てのコーパスは、最先端のCLASSLA-Stanza言語処理パイプラインに言語的に注釈付けされていた。
論文 参考訳(メタデータ) (2024-03-19T13:30:47Z) - The taste of IPA: Towards open-vocabulary keyword spotting and forced alignment in any language [7.0944623704102625]
音声処理のための音素モデルにより、未知の言語に対して強い言語横断的一般化が達成できることを示す。
任意の音声信号と音素シーケンスの開語彙マッチングが可能な多言語音声合成コントラスト埋め込みモデルであるCLAP-IPAを提案する。
論文 参考訳(メタデータ) (2023-11-14T17:09:07Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - XTREME-S: Evaluating Cross-lingual Speech Representations [88.78720838743772]
XTREME-Sは,言語間の共通言語表現を評価するための新しいベンチマークである。
本稿では,新しいベンチマークについて述べるとともに,音声のみのベースラインと音声テキストのベースラインを確立する。
論文 参考訳(メタデータ) (2022-03-21T06:50:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。