論文の概要: wav2vec and its current potential to Automatic Speech Recognition in
German for the usage in Digital History: A comparative assessment of
available ASR-technologies for the use in cultural heritage contexts
- arxiv url: http://arxiv.org/abs/2303.06026v1
- Date: Mon, 6 Mar 2023 22:24:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-19 12:06:44.701729
- Title: wav2vec and its current potential to Automatic Speech Recognition in
German for the usage in Digital History: A comparative assessment of
available ASR-technologies for the use in cultural heritage contexts
- Title(参考訳): wav2vecとそのデジタルヒストリーにおけるドイツ語の自動音声認識の可能性:文化遺産の文脈における使用可能なASR技術の比較評価
- Authors: Michael Fleck and Wolfgang G\"oderle
- Abstract要約: 我々は、ドイツ語の自動音声認識のための最先端のオープンソースモデルを訓練し、公開する。
我々は,デジタル人文科学と文化遺産インデックス化のより大きな文脈において,この技術の現在の可能性を評価する。
我々は、ASRがオーディオ・ビジュアル・ソースのドキュメンテーションと分析の鍵となる技術になると論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this case study we trained and published a state-of-the-art open-source
model for Automatic Speech Recognition (ASR) for German to evaluate the current
potential of this technology for the use in the larger context of Digital
Humanities and cultural heritage indexation. Along with this paper we publish
our wav2vec2 based speech to text model while we evaluate its performance on a
corpus of historical recordings we assembled compared against commercial
cloud-based and proprietary services. While our model achieves moderate
results, we see that proprietary cloud services fare significantly better. As
our results show, recognition rates over 90 percent can currently be achieved,
however, these numbers drop quickly once the recordings feature limited audio
quality or use of non-every day or outworn language. A big issue is the high
variety of different dialects and accents in the German language. Nevertheless,
this paper highlights that the currently available quality of recognition is
high enough to address various use cases in the Digital Humanities. We argue
that ASR will become a key technology for the documentation and analysis of
audio-visual sources and identify an array of important questions that the DH
community and cultural heritage stakeholders will have to address in the near
future.
- Abstract(参考訳): 本研究では,デジタル・ヒューマニティーと文化遺産インデックス化のより大きな文脈において,この技術の現在の可能性を評価するために,ドイツにおける最先端のASR(Automatic Speech Recognition)のオープンソースモデルを訓練し,公開した。
本稿では,当社が収集した記録コーパスの性能を,商用クラウドおよびプロプライエタリサービスと比較して評価しながら,wav2vec2ベースの音声をテキストモデルに公開する。
私たちのモデルでは適度な結果が得られますが、プロプライエタリなクラウドサービスの方がはるかに優れています。
結果からわかるように、現在90%以上の認識率は達成できるが、録音された音声の品質が制限されたり、日々の日外言語の使用が制限されたりすると、これらの数字は急速に減少する。
大きな問題は、ドイツ語の方言やアクセントが多種多様であることです。
しかし,本稿では,現在入手可能な認識品質が,デジタルヒューマニズムのさまざまなユースケースに対応するのに十分な水準にあることを強調する。
我々は、asrは、オーディオビジュアルソースのドキュメンテーションと分析のための重要な技術となり、dhコミュニティと文化遺産の利害関係者が近い将来取り組まなければならない一連の重要な質問を特定することになると論じている。
関連論文リスト
- Empowering Low-Resource Language ASR via Large-Scale Pseudo Labeling [24.870429379543193]
我々は、Hindiに焦点をあてて、ASRの低リソース言語のための限定ラベル付きデータに挑戦する。
本フレームワークは,音声とテキストのペアを評価するための複数のベースモデルと評価器を統合し,低リソース言語に対するロバストな擬似ラベリングを実現する。
我々は,複数のコンテンツカテゴリの多様なYouTubeオーディオファイルからなる新しいベンチマークであるIndicYTを用いて,アプローチを検証する。
論文 参考訳(メタデータ) (2024-08-26T05:36:35Z) - GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement [36.29371629234269]
GigaSpeech 2は大規模多言語音声認識コーパスである。
タイ語、インドネシア語、ベトナム語を含む約3万時間の音声が自動で書き起こされる。
論文 参考訳(メタデータ) (2024-06-17T13:44:20Z) - A Comparative Study of Perceptual Quality Metrics for Audio-driven
Talking Head Videos [81.54357891748087]
4つの生成手法から生成した音声ヘッドビデオを収集する。
視覚的品質、口唇音の同期、頭部運動の自然性に関する制御された心理物理実験を行った。
実験では,モデル予測と人間のアノテーションの整合性を検証し,広く使用されている指標よりも人的意見に整合した指標を同定した。
論文 参考訳(メタデータ) (2024-03-11T04:13:38Z) - Replay to Remember: Continual Layer-Specific Fine-tuning for German
Speech Recognition [19.635428830237842]
大規模ASRモデルの性能は,より小さな領域に対してどのように近似できるかを検討する。
本研究では,ASRモデルの頑健性を高めるために,連続学習に経験リプレイを適用した。
論文 参考訳(メタデータ) (2023-07-14T11:20:22Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Arabic Speech Emotion Recognition Employing Wav2vec2.0 and HuBERT Based
on BAVED Dataset [0.0]
本稿では,アラビア語音声対話のための深層学習構築型感情認識モデルを提案する。
開発モデルは、wav2vec2.0 や HuBERT といったアートオーディオ表現の状態を取り入れている。
我々のモデルの実験と性能は、以前の既知の結果を克服する。
論文 参考訳(メタデータ) (2021-10-09T00:58:12Z) - English Accent Accuracy Analysis in a State-of-the-Art Automatic Speech
Recognition System [3.4888132404740797]
様々なラベル付き英語アクセントを持つコーパスからの未認識データを用いて,最先端の自動音声認識モデルを評価する。
本研究は,アクセントの多様性に関して,訓練コーパスで最も普及しているアクセントに有利な正確性バイアスが存在することを示す。
論文 参考訳(メタデータ) (2021-05-09T08:24:33Z) - Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-01-21T05:55:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。