Fugu-MT 論文翻訳(概要): ASR in German: A Detailed Error Analysis

論文の概要: ASR in German: A Detailed Error Analysis

arxiv url: http://arxiv.org/abs/2204.05617v1
Date: Tue, 12 Apr 2022 08:25:01 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-13 22:08:12.441401
Title: ASR in German: A Detailed Error Analysis
Title（参考訳）: ドイツにおけるASR:詳細なエラー分析
Authors: Johannes Wirth and Rene Peinl
Abstract要約: この研究は、ドイツ語で事前訓練されたASRモデルアーキテクチャの選択を示し、様々なテストデータセットのベンチマークで評価する。クロスアーキテクチャの予測エラーを特定し、それらをカテゴリに分類し、カテゴリ毎のエラーソースをトレーニングデータにトレースする。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The amount of freely available systems for automatic speech recognition (ASR) based on neural networks is growing steadily, with equally increasingly reliable predictions. However, the evaluation of trained models is typically exclusively based on statistical metrics such as WER or CER, which do not provide any insight into the nature or impact of the errors produced when predicting transcripts from speech input. This work presents a selection of ASR model architectures that are pretrained on the German language and evaluates them on a benchmark of diverse test datasets. It identifies cross-architectural prediction errors, classifies those into categories and traces the sources of errors per category back into training data as well as other sources. Finally, it discusses solutions in order to create qualitatively better training datasets and more robust ASR systems.
Abstract（参考訳）: ニューラルネットワークに基づく自動音声認識(ASR)のための無料システムの量は着実に増加しており、同様に信頼性が増している。しかし、訓練されたモデルの評価は、通常、werやcerのような統計指標に基づいており、音声入力から書き起こしを予測する際に生じる誤りの性質や影響についての洞察は得られていない。この研究は、ドイツ語で事前訓練されたASRモデルアーキテクチャの選択を示し、様々なテストデータセットのベンチマークで評価する。クロスアーキテクチャの予測エラーを特定し、それらをカテゴリに分類し、カテゴリ毎のエラーソースをトレーニングデータと他のソースにトレースする。最後に、定性的に優れたトレーニングデータセットとより堅牢なASRシステムを作成するためのソリューションについて議論する。

関連論文リスト

Benchmarking Akan ASR Models Across Domain-Specific Datasets: A Comparative Evaluation of Performance, Scalability, and Adaptability [0.0]
本研究では,変圧器アーキテクチャ上に構築された7つのASRモデルについてベンチマークを行った。 Whisper と Wav2Vec2 アーキテクチャ間のエラーの挙動を示す。これらの知見は、ターゲットとなるドメイン適応技術、適応型ルーティング戦略、多言語トレーニングフレームワークの必要性を強調している。
論文参考訳（メタデータ） (2025-07-03T08:01:26Z)
PSRB: A Comprehensive Benchmark for Evaluating Persian ASR Systems [0.0]
本稿では,多様な言語的・音響的条件を取り入れて,このギャップに対処するための総合ベンチマークであるペルシャ音声認識ベンチマーク(PSRB)を紹介する。我々は、現在最先端の商用およびオープンソースモデルを含む10のASRシステムを評価し、性能変動と固有のバイアスについて検討する。その結果,ASRモデルは標準ペルシア語でよく機能するが,地域アクセントや子どもの発話,特定の言語的課題に苦慮していることがわかった。
論文参考訳（メタデータ） (2025-05-27T14:14:55Z)
Generalization is not a universal guarantee: Estimating similarity to training data with an ensemble out-of-distribution metric [0.09363323206192666]
機械学習モデルの新しいデータへの一般化の失敗は、AIシステムの信頼性を制限する中核的な問題である。本稿では、一般化可能性推定(SAGE)のための教師付きオートエンコーダを構築することにより、データの類似性を評価するための標準化されたアプローチを提案する。モデル自体のトレーニングやテストデータセットのデータに適用しても,SAGEスコアのフィルタリング後にアウト・オブ・ボックスモデルの性能が向上することを示す。
論文参考訳（メタデータ） (2025-02-22T19:21:50Z)
GEC-RAG: Improving Generative Error Correction via Retrieval-Augmented Generation for Automatic Speech Recognition Systems [8.669397145785942]
ペルシャ語のような低リソース領域のASR精度を向上させるために,検索型RAG(Retrieval-Augmented Generation)による生成誤差補正を提案する。 GEC-RAGは、TF-IDF(Term Frequency-Inverse Document Frequency)尺度を用いて、ASRの転写と語彙的に類似した例を検索する。
論文参考訳（メタデータ） (2025-01-18T11:53:22Z)
Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。 DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文参考訳（メタデータ） (2024-10-17T04:00:29Z)
Semi-supervised Learning For Robust Speech Evaluation [30.593420641501968]
音声評価は、自動モデルを用いて学習者の口頭習熟度を測定する。本稿では,半教師付き事前学習と客観的正規化を活用することで,このような課題に対処することを提案する。アンカーモデルは、発音の正しさを予測するために擬似ラベルを用いて訓練される。
論文参考訳（メタデータ） (2024-09-23T02:11:24Z)
Automatic Speech Recognition System-Independent Word Error Rate Estimation [23.25173244408922]
単語誤り率(Word error rate、WER)は、自動音声認識(ASR)システムによって生成された文字の質を評価するために用いられる指標である。本稿では,ASRシステムに依存しないWER推定のための仮説生成手法を提案する。
論文参考訳（メタデータ） (2024-04-25T16:57:05Z)
TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in End-to-End ASR [1.8477401359673709]
クラス確率に基づく信頼スコアは、自信過剰なASR予測の品質を正確に表すものではない。信頼度推定モデル(CEM)を訓練するためのTeLeS(Temporal-Lexeme similarity)の信頼性スコアを提案する。我々は、ヒンディー語、タミル語、カナダ語という3つの言語で訓練されたASRモデルを用いて、様々なトレーニングデータサイズで実験を行う。
論文参考訳（メタデータ） (2024-01-06T16:29:13Z)
A Reference-less Quality Metric for Automatic Speech Recognition via Contrastive-Learning of a Multi-Language Model with Self-Supervision [0.20999222360659603]
本研究は,音声データセット上での異なるASRモデルの性能を比較するための基準のない品質指標を提案する。 ASR仮説の質を推定するために、事前訓練された言語モデル(LM)を自己教師付き学習方式でコントラスト学習により微調整する。提案した基準レス計量は、すべての実験において最先端の多言語LMからWERスコアとそれらのランクとの相関をはるかに高める。
論文参考訳（メタデータ） (2023-06-21T21:33:39Z)
Explaining Cross-Domain Recognition with Interpretable Deep Classifier [100.63114424262234]
解釈可能なDeep(IDC)は、ターゲットサンプルの最も近いソースサンプルを、分類器が決定を下す証拠として学習する。我々のIDCは、精度の劣化がほとんどなく、最適なリジェクションオプションの分類を効果的に調整する、より説明可能なモデルに導かれる。
論文参考訳（メタデータ） (2022-11-15T15:58:56Z)
Listen, Adapt, Better WER: Source-free Single-utterance Test-time Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文参考訳（メタデータ） (2022-03-27T06:38:39Z)
Unsupervised neural adaptation model based on optimal transport for spoken language identification [54.96267179988487]
トレーニングセットとテストセット間の音響音声の統計的分布のミスマッチにより,音声言語識別(SLID)の性能が大幅に低下する可能性がある。 SLIDの分布ミスマッチ問題に対処するために,教師なしニューラル適応モデルを提案する。
論文参考訳（メタデータ） (2020-12-24T07:37:19Z)
Unsupervised Domain Adaptation for Speech Recognition via Uncertainty Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文参考訳（メタデータ） (2020-11-26T18:51:26Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。