論文の概要: The Perceptimatic English Benchmark for Speech Perception Models
- arxiv url: http://arxiv.org/abs/2005.03418v1
- Date: Thu, 7 May 2020 12:35:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 23:51:48.846800
- Title: The Perceptimatic English Benchmark for Speech Perception Models
- Title(参考訳): 音声知覚モデルのための知覚英語ベンチマーク
- Authors: Juliette Millet and Ewan Dunbar
- Abstract要約: ベンチマークは、ABX刺激と91人のアメリカ語を話すリスナーの反応で構成されている。
標準的な英語音声認識器であるDeepSpeechは、英語のリスナーよりも英語の音素識別に特化していることを示す。
- 参考スコア(独自算出の注目度): 11.646802225841153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the Perceptimatic English Benchmark, an open experimental
benchmark for evaluating quantitative models of speech perception in English.
The benchmark consists of ABX stimuli along with the responses of 91 American
English-speaking listeners. The stimuli test discrimination of a large number
of English and French phonemic contrasts. They are extracted directly from
corpora of read speech, making them appropriate for evaluating statistical
acoustic models (such as those used in automatic speech recognition) trained on
typical speech data sets. We show that phone discrimination is correlated with
several types of models, and give recommendations for researchers seeking
easily calculated norms of acoustic distance on experimental stimuli. We show
that DeepSpeech, a standard English speech recognizer, is more specialized on
English phoneme discrimination than English listeners, and is poorly correlated
with their behaviour, even though it yields a low error on the decision task
given to humans.
- Abstract(参考訳): 英語における音声知覚の定量的モデルを評価するためのオープンな実験ベンチマークであるPerceptimatic English Benchmarkを提案する。
ベンチマークは、ABX刺激と91人のアメリカ語を話すリスナーの反応で構成されている。
刺激テストは、多くの英語とフランス語の音声のコントラストを識別する。
これらは読み上げ音声のコーパスから直接抽出され、典型的な音声データセットに基づいて訓練された統計的音響モデル(自動音声認識など)を評価するのに適している。
本研究は,電話の識別が複数のモデルと相関していることを示し,実験的な刺激の音響距離の基準を求める研究者に推奨する。
英語の標準音声認識器であるDeepSpeechは、英語の聞き手よりも英語の音素識別に特化しており、人間に与えられた判断タスクに低誤差を与えるにもかかわらず、その振る舞いと相関が低いことを示す。
関連論文リスト
- Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - BabySLM: language-acquisition-friendly benchmark of self-supervised
spoken language models [56.93604813379634]
音声表現を学習するための自己指導技術は、人間のラベルを必要とせずに、音声への露出から言語能力を高めることが示されている。
語彙および構文レベルで音声言語モデルを探索するために,言語習得に親しみやすいベンチマークを提案する。
テキストと音声のギャップを埋めることと、クリーンな音声とその内話のギャップを埋めることである。
論文 参考訳(メタデータ) (2023-06-02T12:54:38Z) - DDSupport: Language Learning Support System that Displays Differences
and Distances from Model Speech [16.82591185507251]
音声のスコアを計算し,初心者による誤認識を検出する新しい言語学習支援システムを提案する。
提案システムは,深層学習に基づく音声処理を用いて,学習者の音声の発音スコアと,学習者とモデルの発音群との差/距離を表示する。
論文 参考訳(メタデータ) (2022-12-08T05:49:15Z) - Evaluation of Automated Speech Recognition Systems for Conversational
Speech: A Linguistic Perspective [0.0]
我々は言語的な視点を採り、フランス語をフランス語のホモフォンの曖昧化に向けたケーススタディとして捉えている。
我々の貢献は、現在最先端のASRシステムを再現する条件下で、人間の音声の転写精度についてより深い知見を提供することである。
論文 参考訳(メタデータ) (2022-11-05T04:35:40Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - A study on native American English speech recognition by Indian
listeners with varying word familiarity level [62.14295630922855]
発声を認識している間、各聴取者から3種類の応答が得られます。
これらの転写から単語誤り率(WER)を算出し、認識された文と原文との類似性を評価する指標として用いる。
話者のナティビティの賢明な分析は、一部のナティビティの話者からの発声が、他のいくつかのナティビティに比べてインド人のリスナーによって認識されるのが困難であることを示している。
論文 参考訳(メタデータ) (2021-12-08T07:43:38Z) - ASR4REAL: An extended benchmark for speech models [19.348785785921446]
モデルにおけるバイアスや弱点の発見を目的とした,実生活条件に適合するベンチマークのセットを紹介する。
その結果,近年のモデルでは男女差がみられていないものの,アクセントによる重要なパフォーマンスの相違が見られることが判明した。
テストされたすべてのモデルは、会話音声でのテストでは、強いパフォーマンス低下を示す。
論文 参考訳(メタデータ) (2021-10-16T14:34:25Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - Perceptimatic: A human speech perception benchmark for unsupervised
subword modelling [11.646802225841153]
音声識別タスクにおいて,音声処理モデルと人間の行動を比較するためのデータセットと手法を提案する。
我々は、フランス語と英語の音声刺激からなるオープンデータセットであるPerceptimaticと、91名の英語と93名のフランス語の聴取者の結果を提供する。
刺激は幅広いフランス語と英語のコントラストを検査し、自然な読み上げ音声のコーパスから直接抽出する。
教師なしモデルや教師付き多言語モデルとは異なり、標準教師付き単言語HMM-GMM音声認識システムでは、携帯電話の識別に長けながら、表現空間が非常に優れていることを示す。
論文 参考訳(メタデータ) (2020-10-12T18:40:08Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。