論文の概要: The Norwegian Parliamentary Speech Corpus
- arxiv url: http://arxiv.org/abs/2201.10881v1
- Date: Wed, 26 Jan 2022 11:41:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-27 18:49:45.806115
- Title: The Norwegian Parliamentary Speech Corpus
- Title(参考訳): ノルウェー議会演説コーパス
- Authors: Per Erik Solberg and Pablo Ortiz
- Abstract要約: ノルウェー議会演説コーパス(Norwear Parliamentary Speech Corpus、NPSC)は、ノルウェー議会の会議の記録を収録した音声データセットである。
これは、自動音声認識(ASR)システムのトレーニング用に設計された、未記述のノルウェー語音声を含む、初めて公開されたデータセットである。
NPSCの訓練は、基準系から高いWERを持つ方言では一般的に改善が大きくなるため、方言の観点からは「民主化」効果がある。
- 参考スコア(独自算出の注目度): 0.5874142059884521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Norwegian Parliamentary Speech Corpus (NPSC) is a speech dataset with
recordings of meetings from Stortinget, the Norwegian parliament. It is the
first, publicly available dataset containing unscripted, Norwegian speech
designed for training of automatic speech recognition (ASR) systems. The
recordings are manually transcribed and annotated with language codes and
speakers, and there are detailed metadata about the speakers. The
transcriptions exist in both normalized and non-normalized form, and
non-standardized words are explicitly marked and annotated with standardized
equivalents. To test the usefulness of this dataset, we have compared an ASR
system trained on the NPSC with a baseline system trained on only
manuscript-read speech. These systems were tested on an independent dataset
containing spontaneous, dialectal speech. The NPSC-trained system performed
significantly better, with a 22.9% relative improvement in word error rate
(WER). Moreover, training on the NPSC is shown to have a "democratizing" effect
in terms of dialects, as improvements are generally larger for dialects with
higher WER from the baseline system.
- Abstract(参考訳): ノルウェー議会演説コーパス(Norwear Parliamentary Speech Corpus、NPSC)は、ノルウェー議会の会議の記録を収録した音声データセットである。
これは、自動音声認識(ASR)システムのトレーニング用に設計された、未記述のノルウェー語音声を含む、初めて公開されたデータセットである。
録音は手動で書き起こされ、言語コードや話者で注釈付けされ、話者に関する詳細なメタデータがある。
転写は正規化と非正規化の両方に存在し、非標準化された単語は明示的にマークされ、標準化された同値で注釈付けされる。
本データセットの有用性を検証するため,NPSCで訓練されたASRシステムと,原稿読み上げ音声のみを訓練したベースラインシステムを比較した。
これらのシステムは、自発的な方言音声を含む独立したデータセットでテストされた。
npscで訓練されたシステムは、単語誤り率(wer)が22.9%向上し、著しく改善した。
さらに、NPSCのトレーニングは、基準系から高いWERを持つ方言では改善が一般的に大きいため、方言の観点からは「民主化」効果があることが示されている。
関連論文リスト
- Improving Accented Speech Recognition using Data Augmentation based on Unsupervised Text-to-Speech Synthesis [30.97784092953007]
本稿では、アクセント付き音声認識を改善するためのデータ拡張手法として、教師なし音声合成(TTS)の使用について検討する。
TTSシステムは、手書き文字起こしではなく、少量のアクセント付き音声訓練データとそれらの擬似ラベルで訓練される。
この手法により,アクセント付き音声認識のためのデータ拡張を行うために,手書きの書き起こしを伴わないアクセント付き音声データを使用することが可能である。
論文 参考訳(メタデータ) (2024-07-04T16:42:24Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Finnish Parliament ASR corpus - Analysis, benchmarks and statistics [11.94655679070282]
フィンランド議会では、3000時間以上の演説と449人の講演者が参加し、手書きの音声データをフィンランド語で収集した最大規模である。
このコーパスは初期の作業に基づいて構築され、結果としてコーパスは2つの期間から2つのトレーニングサブセットに自然に分割される。
我々は、カルディに基づく完全なデータ準備パイプラインと隠れマルコフモデル(HMM)、ハイブリッドディープニューラルネットワーク(HMM-DNN)、アテンションベースのエンコーダデコーダ(AED)ASRレシピを開発した。
論文 参考訳(メタデータ) (2022-03-28T16:29:49Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Mandarin-English Code-switching Speech Recognition with Self-supervised
Speech Representation Models [55.82292352607321]
コードスイッチング(英: Code-switching, CS)は、複数の言語が文内で使用される日常会話において一般的である。
本稿では、最近成功した自己教師付き学習(SSL)手法を用いて、CSを使わずに多くのラベルなし音声データを活用する。
論文 参考訳(メタデータ) (2021-10-07T14:43:35Z) - English Accent Accuracy Analysis in a State-of-the-Art Automatic Speech
Recognition System [3.4888132404740797]
様々なラベル付き英語アクセントを持つコーパスからの未認識データを用いて,最先端の自動音声認識モデルを評価する。
本研究は,アクセントの多様性に関して,訓練コーパスで最も普及しているアクセントに有利な正確性バイアスが存在することを示す。
論文 参考訳(メタデータ) (2021-05-09T08:24:33Z) - FT Speech: Danish Parliament Speech Corpus [21.190182627955817]
本稿では,デンマーク議会の会議記録から作成した音声コーパスであるFT Speechを紹介する。
コーパスには、合計434人の話者による1,800時間以上の音声の書き起こしが含まれている。
これは、デンマークの既存の公用語コーパスよりも、持続時間、語彙、自然発話の量において著しく大きい。
論文 参考訳(メタデータ) (2020-05-25T19:51:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。