Fugu-MT 論文翻訳(概要): Robustness of end-to-end Automatic Speech Recognition Models -- A Case Study using Mozilla DeepSpeech

論文の概要: Robustness of end-to-end Automatic Speech Recognition Models -- A Case Study using Mozilla DeepSpeech

arxiv url: http://arxiv.org/abs/2105.09742v1
Date: Sat, 8 May 2021 16:46:44 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-22 02:29:21.930016
Title: Robustness of end-to-end Automatic Speech Recognition Models -- A Case Study using Mozilla DeepSpeech
Title（参考訳）: エンドツーエンド音声認識モデルのロバスト性 -Mozilla DeepSpeech を用いた事例-
Authors: Aashish Agarwal and Torsten Zesch
Abstract要約: 多くの性能数値が予想されるエラー率を過小評価していると我々は主張する。我々は、選択バイアス、性別、およびコンテンツ、音声、記録条件の重複(トレーニングとテストデータ間の重複)を制御する実験を行う。
参考スコア（独自算出の注目度）: 2.715884199292287
License: http://creativecommons.org/licenses/by/4.0/
Abstract: When evaluating the performance of automatic speech recognition models, usually word error rate within a certain dataset is used. Special care must be taken in understanding the dataset in order to report realistic performance numbers. We argue that many performance numbers reported probably underestimate the expected error rate. We conduct experiments controlling for selection bias, gender as well as overlap (between training and test data) in content, voices, and recording conditions. We find that content overlap has the biggest impact, but other factors like gender also play a role.
Abstract（参考訳）: 音声認識モデルの性能を評価する際には、通常、特定のデータセット内の単語誤り率を用いる。現実的なパフォーマンス数値を報告するためには、データセットの理解に特に注意する必要がある。多くの性能数値が予想されるエラー率を過小評価していると我々は主張する。我々は、選択バイアス、性別、およびコンテンツ、音声、記録条件の重複(トレーニングとテストデータ間の重複)を制御する実験を行う。コンテンツの重複は最大の影響を与えるが、ジェンダーのような他の要因も重要な役割を果たしている。

関連論文リスト

Exploring Gender Disparities in Automatic Speech Recognition Technology [22.729651340592586]
トレーニングデータにおいて、性別の表現によってパフォーマンスがどう異なるかを分析する。以上の結果から,トレーニングデータにおける性別比とASR成績との複雑な相互作用が示唆された。
論文参考訳（メタデータ） (2025-02-25T18:29:38Z)
Everyone deserves their voice to be heard: Analyzing Predictive Gender Bias in ASR Models Applied to Dutch Speech Data [13.91630413828167]
本研究は,オランダ語音声データに基づくWhisperモデルの性能格差の同定に焦点をあてる。性別グループ間の単語誤り率,文字誤り率,BERTに基づく意味的類似性を解析した。
論文参考訳（メタデータ） (2024-11-14T13:29:09Z)
Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。 ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文参考訳（メタデータ） (2024-06-26T05:30:21Z)
Detecting Response Generation Not Requiring Factual Judgment [14.921007421043198]
本研究は, 事実正当性判定を必要としない文を予測するタスクが設定された対話応答において, 魅力と事実性を両立することを目的とした。クラウドソーシングにより,ファクトチェック関連ラベル(DDFC)を付加したデータセットと対話データセットを作成し,このデータセットを用いて複数のモデルで分類タスクを行った。分類精度が最も高いモデルでは、およそ88%の正確な分類結果が得られる。
論文参考訳（メタデータ） (2024-06-14T04:03:24Z)
Influence Scores at Scale for Efficient Language Data Sampling [3.072340427031969]
影響スコア」は、データの重要なサブセットを特定するために使われる。本稿では,言語分類タスクにおける影響スコアの適用性について検討する。
論文参考訳（メタデータ） (2023-11-27T20:19:22Z)
The Impact of Debiasing on the Performance of Language Models in Downstream Tasks is Underestimated [70.23064111640132]
我々は、幅広いベンチマークデータセットを用いて、複数の下流タスクのパフォーマンスに対するデバイアスの影響を比較した。実験により、デバイアスの効果は全てのタスクにおいて一貫して見積もられていることが示されている。
論文参考訳（メタデータ） (2023-09-16T20:25:34Z)
Robust Hate Speech Detection in Social Media: A Cross-Dataset Empirical Evaluation [5.16706940452805]
我々は、さまざまなヘイトスピーチ検出データセット上で、言語モデルを微調整する大規模なクロスデータセット比較を行う。この分析は、トレーニングデータとして使用するデータセットが、他のデータセットよりも一般化可能であることを示している。実験により、ヘイトスピーチ検出データセットの組み合わせが、堅牢なヘイトスピーチ検出モデルの開発にどのように貢献するかが示されている。
論文参考訳（メタデータ） (2023-07-04T12:22:40Z)
Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文参考訳（メタデータ） (2023-03-06T08:32:50Z)
Unsupervised Fine-Tuning Data Selection for ASR Using Self-Supervised Speech Models [13.956691231452336]
自己教師付き学習(SSL)は、ラベルのないデータを利用して自動音声認識(ASR)モデルの性能を向上させることができる。本研究は,限られた転写予算の下でHuBERTモデルを微調整するための,教師なしデータ選択手法について検討する。
論文参考訳（メタデータ） (2022-12-03T18:05:08Z)
Impact of Pretraining Term Frequencies on Few-Shot Reasoning [51.990349528930125]
事前学習された言語モデルが、事前学習データにおいてあまり頻度の低い用語でどの程度理にかなっているかを検討する。我々は,様々な数値推論タスクにおいて,GPTに基づく言語モデルに対して,この相関関係の強さを計測する。 LMは数秒の数値推論タスクにおいて高い性能を示すが,本研究の結果は,事前学習データを超えるモデルが実際にどれだけ一般化されるのかという疑問を提起する。
論文参考訳（メタデータ） (2022-02-15T05:43:54Z)
AES Systems Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文参考訳（メタデータ） (2021-09-24T03:49:38Z)
Utilizing Self-supervised Representations for MOS Prediction [51.09985767946843]
既存の評価は通常、クリーンな参照または平行な地上真実データを必要とする。一方、主観的テストは、追加のクリーンデータや並列データを必要としず、人間の知覚とよりよく相関する。基礎的真理データを必要とせず,人間の知覚とよく相関する自動評価手法を開発した。
論文参考訳（メタデータ） (2021-04-07T09:44:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。