論文の概要: Bringing NURC/SP to Digital Life: the Role of Open-source Automatic
Speech Recognition Models
- arxiv url: http://arxiv.org/abs/2210.07852v1
- Date: Fri, 14 Oct 2022 14:24:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 17:47:43.707368
- Title: Bringing NURC/SP to Digital Life: the Role of Open-source Automatic
Speech Recognition Models
- Title(参考訳): nurc/spをデジタルライフに持ち込む: オープンソース自動音声認識モデルの役割
- Authors: Lucas Rafael Stefanel Gris, Arnaldo Candido Junior, Vin\'icius G. dos
Santos, Bruno A. Papa Dias, Marli Quadros Leite, Flaviane Romani Fernandes
Svartman, Sandra Alu\'isio
- Abstract要約: デジタル化されたNURC/SPは、サンパウロの首都で撮影された334時間の録音で375の問い合わせを含む。
本稿では,ポルトガル語における自発音声を用いた3つの自動音声認識モデルの評価と誤り解析について述べる。
- 参考スコア(独自算出の注目度): 0.3385950775795403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The NURC Project that started in 1969 to study the cultured linguistic urban
norm spoken in five Brazilian capitals, was responsible for compiling a large
corpus for each capital. The digitized NURC/SP comprises 375 inquiries in 334
hours of recordings taken in S\~ao Paulo capital. Although 47 inquiries have
transcripts, there was no alignment between the audio-transcription, and 328
inquiries were not transcribed. This article presents an evaluation and error
analysis of three automatic speech recognition models trained with spontaneous
speech in Portuguese and one model trained with prepared speech. The evaluation
allowed us to choose the best model, using WER and CER metrics, in a manually
aligned sample of NURC/SP, to automatically transcribe 284 hours.
- Abstract(参考訳): 1969年に始まった NURC プロジェクトは、ブラジルの5つの首都で話されている文化的な都市標準を研究し、それぞれの首都に大規模なコーパスを編纂する責任を負った。
デジタル化されたNURC/SPは、S\~ao Paulo首都で記録された334時間の375の問い合わせからなる。
47の問合せが書き起こされているが、音声の書き起こしは一致せず、328の問合せは書き起こされなかった。
本稿ではポルトガル語の自発音声で訓練された3つの自動音声認識モデルと準備音声で訓練された1つのモデルの評価と誤り解析について述べる。
評価により,手動で調整したNURC/SPのサンプルを用いて,WERとCERの指標を用いて最適なモデルを選択し,284時間を自動的に書き起こすことができた。
関連論文リスト
- A Large Dataset of Spontaneous Speech with the Accent Spoken in São Paulo for Automatic Speech Recognition Evaluation [0.8929537856623965]
ブラジルポルトガル語の自発音声コーパスについて紹介する。
本稿では,Wav2Vec2-XLSR-53モデルとDistil-Whisperモデルを用いて,予備的な自動音声認識(ASR)結果について報告する。
私たちの知る限りでは、ポルトガルのASRタスクに捧げられた最初の大規模パウリスターノアクセントによる自然発声コーパスである。
論文 参考訳(メタデータ) (2024-09-10T21:45:06Z) - Towards measuring fairness in speech recognition: Fair-Speech dataset [14.703638352216132]
本論文では,ASRモデルの精度評価を支援するために,新たなデータセットであるFair-Speechを紹介した。
私たちのデータセットには、米国593人による録音された音声で約26.5Kの発声が含まれています。
論文 参考訳(メタデータ) (2024-08-22T20:55:17Z) - Generative Spoken Language Model based on continuous word-sized audio
tokens [52.081868603603844]
本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。
結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
論文 参考訳(メタデータ) (2023-10-08T16:46:14Z) - LAraBench: Benchmarking Arabic AI with Large Language Models [26.249084464525044]
LAraBenchはこのギャップをアラビア自然言語処理(NLP)と音声処理タスクに対処している。
我々は、GPT-3.5-turbo、GPT-4、BLOOMZ、Jais-13b-chat、Whisper、USMといったモデルを用いて、61のデータセットで33の異なるタスクに取り組む。
これには,296Kデータポイント,46時間スピーチ,テキスト音声(TTS)30文を含む98の実験的セットアップが含まれていた。
論文 参考訳(メタデータ) (2023-05-24T10:16:16Z) - Political corpus creation through automatic speech recognition on EU
debates [4.670305538969914]
我々は、EU議会のLIBE委員会の書き起こされたコーパスを提示し、合計360万のランニングワードを提示する。
EUの議会委員会の会合は、政治科学者にとって潜在的に価値のある情報源であるが、データは限られたメタデータと共に音声記録としてのみ公開されているため、簡単には入手できない。
我々は,会議の音声記録の正確なテキスト書き起こしを行うために,最も適切な自動音声認識(ASR)モデルについて検討した。
論文 参考訳(メタデータ) (2023-04-17T10:41:59Z) - Robust Speech Recognition via Large-Scale Weak Supervision [69.63329359286419]
インターネット上での大量の音声の書き起こしを単純に予測するために訓練された音声処理システムの能力について検討する。
マルチランガルとマルチタスクの監視を680,000時間にスケールすると、結果は標準ベンチマークによく当てはまる。
私たちは、堅牢な音声処理のさらなる研究の基盤となるために、モデルと推論コードをリリースしています。
論文 参考訳(メタデータ) (2022-12-06T18:46:04Z) - IMaSC -- ICFOSS Malayalam Speech Corpus [0.0]
約50時間の音声を含むマラヤラム語テキストと音声コーパスであるIMaSCについて述べる。
8つのスピーカーと合計34,473のテキストオーディオペアを持つIMaSCは、他のすべてのパブリックな代替品よりも大きい。
以上の結果から,我々のモデルでは,従来の研究や公開モデルに比べて自然度が有意に向上し,平均世論スコアは4.50であることがわかった。
論文 参考訳(メタデータ) (2022-11-23T09:21:01Z) - T5lephone: Bridging Speech and Text Self-supervised Models for Spoken
Language Understanding via Phoneme level T5 [65.32642587901903]
我々は、異なるトークン化戦略を持つPLMが音声言語理解タスクにどのように影響するかを広範囲に研究する。
我々は、音素化されたテキストを使って事前訓練されたT5の変種であるT5lephoneを作成するためのアイデアを拡張した。
論文 参考訳(メタデータ) (2022-11-01T17:00:23Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - On Prosody Modeling for ASR+TTS based Voice Conversion [82.65378387724641]
音声変換において、最新の音声変換チャレンジ(VCC)2020における有望な結果を示すアプローチは、まず、ソース音声を基礎となる言語内容に書き起こすために、自動音声認識(ASR)モデルを使用することである。
このようなパラダイムはASR+TTSと呼ばれ、音声の自然性と変換の類似性において重要な役割を果たす韻律のモデル化を見落としている。
本稿では,ターゲットテキスト予測(TTP)と呼ばれる,ターゲット話者に依存した言語表現から直接韻律を予測することを提案する。
論文 参考訳(メタデータ) (2021-07-20T13:30:23Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。