論文の概要: Hearing voices at the National Library -- a speech corpus and acoustic
model for the Swedish language
- arxiv url: http://arxiv.org/abs/2205.03026v1
- Date: Fri, 6 May 2022 06:06:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-09 19:57:06.243950
- Title: Hearing voices at the National Library -- a speech corpus and acoustic
model for the Swedish language
- Title(参考訳): スウェーデン国立図書館における音声の聴取 -スウェーデン語の音声コーパスと音響モデル-
- Authors: Martin Malmsten, Chris Haffenden, Love B\"orjeson
- Abstract要約: スウェーデン国立図書館(KB)における音声認識のための新しい音響モデル(ASR)を開発した。
我々は,wav2vec 2.0アーキテクチャを用いて,スウェーデン語における音声視覚リソースのための音声からテキストへのパイプラインを実現するための様々なアプローチを評価する。
文化遺産機関におけるこのような技術の可能性を明らかにすることで、これまでにないオーディオヴィジュアルデータを大量に収集することで、我々は結論づける。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explains our work in developing new acoustic models for automated
speech recognition (ASR) at KBLab, the infrastructure for data-driven research
at the National Library of Sweden (KB). We evaluate different approaches for a
viable speech-to-text pipeline for audiovisual resources in Swedish, using the
wav2vec 2.0 architecture in combination with speech corpuses created from KB's
collections. These approaches include pretraining an acoustic model for Swedish
from the ground up, and fine-tuning existing monolingual and multilingual
models. The collections-based corpuses we use have been sampled from millions
of hours of speech, with a conscious attempt to balance regional dialects to
produce a more representative, and thus more democratic, model. The acoustic
model this enabled, "VoxRex", outperforms existing models for Swedish ASR. We
also evaluate combining this model with various pretrained language models,
which further enhanced performance. We conclude by highlighting the potential
of such technology for cultural heritage institutions with vast collections of
previously unlabelled audiovisual data. Our models are released for further
exploration and research here: https://huggingface.co/KBLab.
- Abstract(参考訳): 本稿では,スウェーデン国立図書館(kb)のデータ駆動研究の基盤であるkblabにおける音声認識(asr)のための新しい音響モデルの開発について述べる。
本稿では,スウェーデンにおける音声視覚資源のための実行可能な音声合成パイプラインについて,kbのコレクションから作成した音声コーパスと組み合わせたwav2vec 2.0アーキテクチャを用いて,異なるアプローチを評価した。
これらのアプローチには、スウェーデン語のための音響モデルを基礎から事前学習することや、既存の単言語および多言語モデルの微調整が含まれる。
私たちが使用するコレクションベースのコーパスは、数百万時間に及ぶ会話からサンプリングされ、より代表的で、より民主的なモデルを生み出すために、地域方言のバランスをとろうと意識的に試みています。
これを可能にするアコースティックモデル "VoxRex" はスウェーデンのASRで既存のモデルより優れている。
また,このモデルと各種事前学習言語モデルを組み合わせることで,さらなる性能向上を図る。
文化遺産機関におけるこのような技術の可能性を強調し, これまでにないオーディオヴィジュアルデータの収集を行った。
私たちのモデルは、さらなる調査と研究のために、ここでリリースされます。
関連論文リスト
- A Comparative Analysis of Bilingual and Trilingual Wav2Vec Models for Automatic Speech Recognition in Multilingual Oral History Archives [2.3592914313389257]
我々は,単言語Wav2Vec 2.0モデルと様々な多言語モデルを比較し,音声認識性能の向上を図る。
以上の結果から,単言語音声認識モデルは多言語モデルよりも優れていることが示唆された。
論文 参考訳(メタデータ) (2024-07-24T11:03:47Z) - Developing Acoustic Models for Automatic Speech Recognition in Swedish [6.5458610824731664]
本稿では,トレーニング可能なシステムを用いた自動連続音声認識について述べる。
この研究の目的はスウェーデン語話者のための音響モデルを構築することである。
論文 参考訳(メタデータ) (2024-04-25T12:03:14Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Cross-lingual Knowledge Distillation via Flow-based Voice Conversion for
Robust Polyglot Text-To-Speech [6.243356997302935]
本稿では、上流音声変換(VC)モデルと下流音声合成(TTS)モデルを含む、言語間音声合成のためのフレームワークを提案する。
最初の2段階では、VCモデルを用いてターゲット話者の発話をターゲット話者の声に変換する。
第3段階では、変換されたデータは、対象言語における記録からの言語的特徴や持続時間と組み合わせられ、単一話者音響モデルの訓練に使用される。
論文 参考訳(メタデータ) (2023-09-15T09:03:14Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク
我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。
音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文 参考訳(メタデータ) (2023-06-05T15:53:15Z) - Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文 参考訳(メタデータ) (2023-05-22T13:12:16Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Towards Building Text-To-Speech Systems for the Next Billion Users [18.290165216270452]
そこで我々は,ドラヴィダ語とインド・アーリア語に対する音響モデル,ボコーダ,補足的損失関数,訓練スケジュール,話者および言語多様性の選択について検討した。
我々は,13言語を対象としたTSモデルをトレーニングし,評価し,各言語における既存のモデルを大幅に改善するモデルを見出した。
論文 参考訳(メタデータ) (2022-11-17T13:59:34Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。