論文の概要: Human and Automatic Speech Recognition Performance on German Oral
History Interviews
- arxiv url: http://arxiv.org/abs/2201.06841v1
- Date: Tue, 18 Jan 2022 09:35:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 17:53:22.576526
- Title: Human and Automatic Speech Recognition Performance on German Oral
History Interviews
- Title(参考訳): ドイツ語口伝インタビューにおける人間および自動音声認識性能
- Authors: Michael Gref, Nike Matthiesen, Christoph Schmidt, Sven Behnke, Joachim
K\"ohler
- Abstract要約: 我々は,新しい口頭歴史データセットを用いて3人のヒトの転写を解析し,比較した。
クリーンな音響条件を用いた最近のドイツの口頭史インタビューにおいて,人間の単語誤り率8.7%を推定した。
本稿では,放送音声におけるほぼ人間に近い演奏を実現する音響モデルの適応に関する実験を行う。
- 参考スコア(独自算出の注目度): 21.29483641353437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition systems have accomplished remarkable
improvements in transcription accuracy in recent years. On some domains, models
now achieve near-human performance. However, transcription performance on oral
history has not yet reached human accuracy. In the present work, we investigate
how large this gap between human and machine transcription still is. For this
purpose, we analyze and compare transcriptions of three humans on a new oral
history data set. We estimate a human word error rate of 8.7% for recent German
oral history interviews with clean acoustic conditions. For comparison with
recent machine transcription accuracy, we present experiments on the adaptation
of an acoustic model achieving near-human performance on broadcast speech. We
investigate the influence of different adaptation data on robustness and
generalization for clean and noisy oral history interviews. We optimize our
acoustic models by 5 to 8% relative for this task and achieve 23.9% WER on
noisy and 15.6% word error rate on clean oral history interviews.
- Abstract(参考訳): 近年,音声認識システムは音声認識精度が著しく向上している。
一部の領域では、モデルが人間に近いパフォーマンスを達成している。
しかし, 口腔史の転写性能はヒトの精度には達していない。
本研究は,人間と機械の転写におけるこの差の大きさについて検討する。
そこで本研究では,新しい口腔史データセット上で3人の人間の転写を解析・比較する。
クリーンな音響条件を用いた最近のドイツの口頭史インタビューにおいて,人間の単語誤り率8.7%を推定した。
近年の機械書き起こし精度と比較するため,放送音声における近人性能を実現する音響モデルの適応実験を行った。
清潔で騒々しい口頭史インタビューの堅牢性と一般化に及ぼす異なる適応データの影響について検討する。
この課題に対して音響モデルを5~8%の相対的に最適化し, クリーンオーラルヒストリーの面接において, 雑音下で23.9%, 単語誤り率15.6%を達成する。
関連論文リスト
- CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Improving Whisper's Recognition Performance for Under-Represented Language Kazakh Leveraging Unpaired Speech and Text [22.19230427358921]
表現不足の言語でWhisperのパフォーマンスを改善する方法について研究する価値がある。
我々は、アクセシブル・アンペア音声とテキストデータを利用し、言語モデルGPTとカザフ語Whisperを組み合わせた。
複数の実験で10%以上の絶対WER削減を達成した。
論文 参考訳(メタデータ) (2024-08-10T13:39:13Z) - Child Speech Recognition in Human-Robot Interaction: Problem Solved? [0.024739484546803334]
我々は、2017年からの子どもの音声認識に関する研究を再考し、実際に性能が向上したことを示す。
Newcomer OpenAI Whisperは、主要な商用クラウドサービスよりもはるかに優れている。
転写はまだ完璧ではないが、最高のモデルは文の60.3%を正しく認識し、小さな文法的な違いを抑える。
論文 参考訳(メタデータ) (2024-04-26T13:14:28Z) - Human Transcription Quality Improvement [2.24166568188073]
本稿では,ラベリング段階における信頼度推定に基づく再処理と,ポストラベル段階における自動単語誤り訂正という,転写品質向上のための2つのメカニズムを提案する。
LibriCrowd - 大規模なクラウドソースによる、100時間の英語音声の音声書き起こしデータセット。
論文 参考訳(メタデータ) (2023-09-24T03:39:43Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Accented Speech Recognition Inspired by Human Perception [0.0]
本論文では,アクセント音声の認識のためのパフォーマンス改善の可能性を評価するために,人間の知覚に触発された手法を検討する。
我々は、複数のアクセントへの事前露出、graphemeと音素に基づく発音、ドロップアウト、特にアクセントモデリングに関連付けられるニューラルネットワークのレイヤの識別の4つの手法を検討した。
本研究では, 人間の知覚に基づく手法が, WER の低減と, ニューラルネットワークにおけるアクセント音声のモデル化方法の理解に有望であることを示した。
論文 参考訳(メタデータ) (2021-04-09T22:35:09Z) - Utilizing Self-supervised Representations for MOS Prediction [51.09985767946843]
既存の評価は通常、クリーンな参照または平行な地上真実データを必要とする。
一方、主観的テストは、追加のクリーンデータや並列データを必要としず、人間の知覚とよりよく相関する。
基礎的真理データを必要とせず,人間の知覚とよく相関する自動評価手法を開発した。
論文 参考訳(メタデータ) (2021-04-07T09:44:36Z) - Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-01-21T05:55:29Z) - Multi-Staged Cross-Lingual Acoustic Model Adaption for Robust Speech
Recognition in Real-World Applications -- A Case Study on German Oral History
Interviews [21.47857960919014]
本稿では,言語横断的,多段階的手法により,対象領域へのロバストな音響モデル適応を実現する手法を提案する。
我々のアプローチは、同じ言語と他の言語の両方で、他のドメインからの大規模なトレーニングデータの利用を可能にします。
論文 参考訳(メタデータ) (2020-05-26T08:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。