論文の概要: ASR4REAL: An extended benchmark for speech models
- arxiv url: http://arxiv.org/abs/2110.08583v1
- Date: Sat, 16 Oct 2021 14:34:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 13:24:03.335678
- Title: ASR4REAL: An extended benchmark for speech models
- Title(参考訳): ASR4REAL: 音声モデルの拡張ベンチマーク
- Authors: Morgane Riviere, Jade Copet, Gabriel Synnaeve
- Abstract要約: モデルにおけるバイアスや弱点の発見を目的とした,実生活条件に適合するベンチマークのセットを紹介する。
その結果,近年のモデルでは男女差がみられていないものの,アクセントによる重要なパフォーマンスの相違が見られることが判明した。
テストされたすべてのモデルは、会話音声でのテストでは、強いパフォーマンス低下を示す。
- 参考スコア(独自算出の注目度): 19.348785785921446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Popular ASR benchmarks such as Librispeech and Switchboard are limited in the
diversity of settings and speakers they represent. We introduce a set of
benchmarks matching real-life conditions, aimed at spotting possible biases and
weaknesses in models. We have found out that even though recent models do not
seem to exhibit a gender bias, they usually show important performance
discrepancies by accent, and even more important ones depending on the
socio-economic status of the speakers. Finally, all tested models show a strong
performance drop when tested on conversational speech, and in this precise
context even a language model trained on a dataset as big as Common Crawl does
not seem to have significant positive effect which reiterates the importance of
developing conversational language models
- Abstract(参考訳): LibrispeechやSwitchboardのような一般的なASRベンチマークは、それらが表す設定やスピーカーの多様性に制限されている。
モデルにおけるバイアスや弱点の発見を目的とした,実生活条件に適合するベンチマークのセットを紹介する。
その結果,近年のモデルでは男女差がみられていないものの,アクセントによる重要なパフォーマンスの相違や,話者の社会経済的地位によってさらに重要な結果が得られていることがわかった。
最後に、すべてのテストされたモデルは、会話型音声でテストすると強いパフォーマンス低下を示し、この正確な文脈では、共通のクロールのような大きなデータセットでトレーニングされた言語モデルでさえ、会話型言語モデルを開発することの重要性を再現する重要な効果を示さないように思える。
関連論文リスト
- ASR Benchmarking: Need for a More Representative Conversational Dataset [3.017953715883516]
本研究では、大人同士の非構造的な会話からなる、TalkBankから派生した多言語会話データセットを提案する。
その結果,会話環境下でのテストでは,様々な最先端のASRモデルに対して顕著な性能低下がみられた。
論文 参考訳(メタデータ) (2024-09-18T15:03:04Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Robustness of Speech Separation Models for Similar-pitch Speakers [14.941946672578863]
単一チャンネル音声分離は,マルチスピーカ環境における音声認識システムを強化する上で重要な課題である。
本稿では,話者間のピッチ差が最小限である場合における最先端ニューラルネットワークモデルのロバスト性について検討する。
論文 参考訳(メタデータ) (2024-07-22T15:55:08Z) - SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - The Ability of Self-Supervised Speech Models for Audio Representations [53.19715501273934]
自己教師付き学習(SSL)音声モデルは、音声表現学習において前例のない成功を収めた。
我々は、最先端のSSL音声モデルの表現能力を評価するために、豊富な音声および非音声音声データセットに関する広範な実験を行う。
結果から、SSL音声モデルは幅広い非音声音声の有意義な特徴を抽出できるが、特定の種類のデータセットではフェールする可能性があることが示された。
論文 参考訳(メタデータ) (2022-09-26T15:21:06Z) - A Study of Gender Impact in Self-supervised Models for Speech-to-Text
Systems [25.468558523679363]
我々は、事前学習データにおいて、性別固有のwav2vec 2.0モデルを、性別バランスの異なるモデルと比較し、比較する。
エンドツーエンドのASRシステムを微調整する前に、性別別事前学習を用いて、全体的なパフォーマンスを低く観察する。
論文 参考訳(メタデータ) (2022-04-04T11:28:19Z) - A Systematic Investigation of Commonsense Understanding in Large
Language Models [23.430757316504316]
大規模な言語モデルでは、ゼロショット設定で多くの自然言語処理(NLP)タスクで顕著なパフォーマンスを示している。
これらのモデルが4つのコモンセンスベンチマークに対してモデルを評価することによってコモンセンス理解を示すかどうかを問う。
論文 参考訳(メタデータ) (2021-10-31T22:20:36Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。