Fugu-MT 論文翻訳(概要): ASR4REAL: An extended benchmark for speech models

論文の概要: ASR4REAL: An extended benchmark for speech models

arxiv url: http://arxiv.org/abs/2110.08583v1
Date: Sat, 16 Oct 2021 14:34:25 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-19 13:24:03.335678
Title: ASR4REAL: An extended benchmark for speech models
Title（参考訳）: ASR4REAL: 音声モデルの拡張ベンチマーク
Authors: Morgane Riviere, Jade Copet, Gabriel Synnaeve
Abstract要約: モデルにおけるバイアスや弱点の発見を目的とした,実生活条件に適合するベンチマークのセットを紹介する。その結果,近年のモデルでは男女差がみられていないものの,アクセントによる重要なパフォーマンスの相違が見られることが判明した。テストされたすべてのモデルは、会話音声でのテストでは、強いパフォーマンス低下を示す。
参考スコア（独自算出の注目度）: 19.348785785921446
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Popular ASR benchmarks such as Librispeech and Switchboard are limited in the diversity of settings and speakers they represent. We introduce a set of benchmarks matching real-life conditions, aimed at spotting possible biases and weaknesses in models. We have found out that even though recent models do not seem to exhibit a gender bias, they usually show important performance discrepancies by accent, and even more important ones depending on the socio-economic status of the speakers. Finally, all tested models show a strong performance drop when tested on conversational speech, and in this precise context even a language model trained on a dataset as big as Common Crawl does not seem to have significant positive effect which reiterates the importance of developing conversational language models
Abstract（参考訳）: LibrispeechやSwitchboardのような一般的なASRベンチマークは、それらが表す設定やスピーカーの多様性に制限されている。モデルにおけるバイアスや弱点の発見を目的とした,実生活条件に適合するベンチマークのセットを紹介する。その結果,近年のモデルでは男女差がみられていないものの,アクセントによる重要なパフォーマンスの相違や,話者の社会経済的地位によってさらに重要な結果が得られていることがわかった。最後に、すべてのテストされたモデルは、会話型音声でテストすると強いパフォーマンス低下を示し、この正確な文脈では、共通のクロールのような大きなデータセットでトレーニングされた言語モデルでさえ、会話型言語モデルを開発することの重要性を再現する重要な効果を示さないように思える。

関連論文リスト

SpeechR: A Benchmark for Speech Reasoning in Large Audio-Language Models [60.72029578488467]
SpeechRは、大規模な音声言語モデルにおける音声に対する推論を評価するための統一的なベンチマークである。事実検索、手続き推論、規範的判断の3つの重要な側面に沿ったモデルを評価する。 11個の最先端のLALMの評価は、高い転写精度が強い推論能力に変換されないことを示している。
論文参考訳（メタデータ） (2025-08-04T03:28:04Z)
Language Barriers: Evaluating Cross-Lingual Performance of CNN and Transformer Architectures for Speech Quality Estimation [9.286959744769792]
目的語品質モデルの言語間一般化は大きな課題である。主に英語データに基づいて訓練されたモデルは、異なる音素、音節、韻律の特徴を持つ言語に一般化するのに苦労する可能性がある。本研究では,NISQA,CNNベースモデル,変換器ベースオーディオスペクトログラム変換器(AST)モデルという2つの音声品質モデルの言語間性能について検討した。
論文参考訳（メタデータ） (2025-02-18T16:22:43Z)
MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-27T09:01:08Z)
ASR Benchmarking: Need for a More Representative Conversational Dataset [3.017953715883516]
本研究では、大人同士の非構造的な会話からなる、TalkBankから派生した多言語会話データセットを提案する。その結果,会話環境下でのテストでは,様々な最先端のASRモデルに対して顕著な性能低下がみられた。
論文参考訳（メタデータ） (2024-09-18T15:03:04Z)
Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文参考訳（メタデータ） (2024-08-14T16:55:06Z)
Robustness of Speech Separation Models for Similar-pitch Speakers [14.941946672578863]
単一チャンネル音声分離は,マルチスピーカ環境における音声認識システムを強化する上で重要な課題である。本稿では,話者間のピッチ差が最小限である場合における最先端ニューラルネットワークモデルのロバスト性について検討する。
論文参考訳（メタデータ） (2024-07-22T15:55:08Z)
SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文参考訳（メタデータ） (2024-04-08T15:21:17Z)
SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。 SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文参考訳（メタデータ） (2023-05-22T13:47:51Z)
The Ability of Self-Supervised Speech Models for Audio Representations [53.19715501273934]
自己教師付き学習(SSL)音声モデルは、音声表現学習において前例のない成功を収めた。我々は、最先端のSSL音声モデルの表現能力を評価するために、豊富な音声および非音声音声データセットに関する広範な実験を行う。結果から、SSL音声モデルは幅広い非音声音声の有意義な特徴を抽出できるが、特定の種類のデータセットではフェールする可能性があることが示された。
論文参考訳（メタデータ） (2022-09-26T15:21:06Z)
A Study of Gender Impact in Self-supervised Models for Speech-to-Text Systems [25.468558523679363]
我々は、事前学習データにおいて、性別固有のwav2vec 2.0モデルを、性別バランスの異なるモデルと比較し、比較する。エンドツーエンドのASRシステムを微調整する前に、性別別事前学習を用いて、全体的なパフォーマンスを低く観察する。
論文参考訳（メタデータ） (2022-04-04T11:28:19Z)
A Systematic Investigation of Commonsense Understanding in Large Language Models [23.430757316504316]
大規模な言語モデルでは、ゼロショット設定で多くの自然言語処理(NLP)タスクで顕著なパフォーマンスを示している。これらのモデルが4つのコモンセンスベンチマークに対してモデルを評価することによってコモンセンス理解を示すかどうかを問う。
論文参考訳（メタデータ） (2021-10-31T22:20:36Z)
Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文参考訳（メタデータ） (2021-09-16T03:08:22Z)
Unsupervised Cross-lingual Representation Learning for Speech Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文参考訳（メタデータ） (2020-06-24T18:25:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。