Fugu-MT 論文翻訳(概要): ParlaSpeech 3.0: Richly Annotated Spoken Parliamentary Corpora of Croatian, Czech, Polish, and Serbian

論文の概要: ParlaSpeech 3.0: Richly Annotated Spoken Parliamentary Corpora of Croatian, Czech, Polish, and Serbian

arxiv url: http://arxiv.org/abs/2511.01619v1
Date: Mon, 03 Nov 2025 14:27:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-05 16:37:27.296221
Title: ParlaSpeech 3.0: Richly Annotated Spoken Parliamentary Corpora of Croatian, Czech, Polish, and Serbian
Title（参考訳）: ParlaSpeech 3.0: クロアチア、チェコ、ポーランド、セルビアの豊かな注釈付き議会コーパス
Authors: Nikola Ljubešić, Peter Rupnik, Ivan Porupski, Taja Kuzman Pungeršek,
Abstract要約: パラスペーチ(ParlaSpeech)は、スラヴ語、チェコ語、ポーランド語、セルビア語の4つの言語にまたがる話し言葉のコーパスである。コーパスは、パルラミント文字とそれに対応するメタデータから自動で構築され、それぞれの議会の演説記録に一致した。
参考スコア（独自算出の注目度）: 0.5666456827479577
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: ParlaSpeech is a collection of spoken parliamentary corpora currently spanning four Slavic languages - Croatian, Czech, Polish and Serbian - all together 6 thousand hours in size. The corpora were built in an automatic fashion from the ParlaMint transcripts and their corresponding metadata, which were aligned to the speech recordings of each corresponding parliament. In this release of the dataset, each of the corpora is significantly enriched with various automatic annotation layers. The textual modality of all four corpora has been enriched with linguistic annotations and sentiment predictions. Similar to that, their spoken modality has been automatically enriched with occurrences of filled pauses, the most frequent disfluency in typical speech. Two out of the four languages have been additionally enriched with detailed word- and grapheme-level alignments, and the automatic annotation of the position of primary stress in multisyllabic words. With these enrichments, the usefulness of the underlying corpora has been drastically increased for downstream research across multiple disciplines, which we showcase through an analysis of acoustic correlates of sentiment. All the corpora are made available for download in JSONL and TextGrid formats, as well as for search through a concordancer.
Abstract（参考訳）: ParlaSpeechは4つのスラヴ語(クロアチア語、チェコ語、ポーランド語、セルビア語)にまたがる話し言葉のコーパスである。コーパスは、パルラミント文字とそれに対応するメタデータから自動で構築され、それぞれの議会の演説記録に一致した。データセットの今回のリリースでは、各コーパスにさまざまな自動アノテーションレイヤが組み込まれている。 4つのコーパスのテキストのモダリティは、言語アノテーションや感情予測に富んでいる。それと同様に、彼らの話のモダリティは、典型的な音声における最も頻繁な拡散である、充満停止の発生によって自動的に豊かにされている。 4言語のうち2言語は、詳細な単語レベルのアライメントと多音節語の一次応力位置の自動アノテーションが加わった。これらの豊かさにより、複数の分野にわたる下流研究において、基礎となるコーパスの有用性が飛躍的に向上し、音響的相関感の分析を通して紹介する。コーパスはすべてJSONLとTextGridフォーマットでダウンロードでき、コンコーダによる検索も可能だ。

関連論文リスト

MENASpeechBank: A Reference Voice Bank with Persona-Conditioned Multi-Turn Conversations for AudioLLMs [13.58291341556655]
我々は,複数のMENA諸国にまたがる124人の話者から約18Kの高品質発話からなる参照音声バンクMENASpeechBankを紹介した。 i)世界価値にインスパイアされた属性に富んだペルソナプロファイルを構築し、(ii)約5Kの会話シナリオの分類を定義し、(iii)意味的類似性を通じてペルソナとシナリオをマッチングし、(iv)約417Kのロールプレイ会話を生成する。
論文参考訳（メタデータ） (2026-02-03T10:22:27Z)
Corpus of Cross-lingual Dialogues with Minutes and Detection of Misunderstandings [0.45498315114762483]
本稿では,自動音声翻訳による言語間対話のコーパスを提案する。コーパスは、12の原語でASRと金の書き起こしを含む5時間の音声記録と、英語への自動翻訳と修正された翻訳で構成されている。この課題とその複雑さを概観するために,言語横断会議における誤解の定量化を試みる。
論文参考訳（メタデータ） (2025-12-23T09:56:23Z)
PART: Progressive Alignment Representation Training for Multilingual Speech-To-Text with LLMs [58.2469845374385]
進歩的アライメント表現訓練(PART)について紹介する。 Partは多段階およびマルチタスクのフレームワークで、言語内のアライメントと言語間のアライメントを分離する。 CommonVoice 15の実験では、Fleurs、Wenetspeech、CoVoST2が、Particleが従来のアプローチを上回ることを示している。
論文参考訳（メタデータ） (2025-09-24T03:54:14Z)
The ParlaSpeech Collection of Automatically Generated Speech and Text Datasets from Parliamentary Proceedings [0.0]
我々は,低リソース言語による大規模かつオープンな音声・テキスト対応データセットを構築するためのアプローチを提案する。我々は3つのスラヴ語、すなわちクロアチア語、ポーランド語、セルビア語に焦点を当てている。このパイロット実行の結果は、5000時間以上のスピーチと付随するテキストの書き起こしにまたがる、高品質な3つのデータセットである。
論文参考訳（メタデータ） (2024-09-23T10:12:18Z)
Wav2Gloss: Generating Interlinear Glossed Text from Speech [78.64412090339044]
音声から4つの言語アノテーションを自動抽出するタスクであるWav2Glossを提案する。音声からのインターリニア・グロッシド・テキスト・ジェネレーションの今後の研究の基盤となる基盤となるものについて述べる。
論文参考訳（メタデータ） (2024-03-19T21:45:29Z)
CLASSLA-web: Comparable Web Corpora of South Slavic Languages Enriched with Linguistic and Genre Annotation [4.450536872346658]
本稿では,スロベニア人,クロアチア人,ボスニア人,モンテネグロ人,セルビア人,マケドニア人,ブルガリア人のウェブコーパスを比較検討する。これらのコーパスの収集には、合計で2600万件の文書から13億件のトークンが含まれている。全てのコーパスは、最先端のCLASSLA-Stanza言語処理パイプラインに言語的に注釈付けされていた。
論文参考訳（メタデータ） (2024-03-19T13:30:47Z)
The taste of IPA: Towards open-vocabulary keyword spotting and forced alignment in any language [7.0944623704102625]
音声処理のための音素モデルにより、未知の言語に対して強い言語横断的一般化が達成できることを示す。任意の音声信号と音素シーケンスの開語彙マッチングが可能な多言語音声合成コントラスト埋め込みモデルであるCLAP-IPAを提案する。
論文参考訳（メタデータ） (2023-11-14T17:09:07Z)
SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。 FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文参考訳（メタデータ） (2023-08-22T17:44:18Z)
ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2023-05-24T07:42:15Z)
SpeechMatrix: A Large-Scale Mined Corpus of Multilingual Speech-to-Speech Translations [38.058120432870126]
SpeechMatrixは、音声から音声への翻訳の大規模多言語コーパスである。 136言語対の音声アライメントと、合計418万時間の音声を含む。
論文参考訳（メタデータ） (2022-11-08T19:09:27Z)
XTREME-S: Evaluating Cross-lingual Speech Representations [88.78720838743772]
XTREME-Sは,言語間の共通言語表現を評価するための新しいベンチマークである。本稿では,新しいベンチマークについて述べるとともに,音声のみのベースラインと音声テキストのベースラインを確立する。
論文参考訳（メタデータ） (2022-03-21T06:50:21Z)
Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文参考訳（メタデータ） (2020-10-28T12:33:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。