論文の概要: Perceptimatic: A human speech perception benchmark for unsupervised
subword modelling
- arxiv url: http://arxiv.org/abs/2010.05961v1
- Date: Mon, 12 Oct 2020 18:40:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 05:37:54.783468
- Title: Perceptimatic: A human speech perception benchmark for unsupervised
subword modelling
- Title(参考訳): perceptimatic: 教師なしサブワードモデリングのための人間の音声知覚ベンチマーク
- Authors: Juliette Millet and Ewan Dunbar
- Abstract要約: 音声識別タスクにおいて,音声処理モデルと人間の行動を比較するためのデータセットと手法を提案する。
我々は、フランス語と英語の音声刺激からなるオープンデータセットであるPerceptimaticと、91名の英語と93名のフランス語の聴取者の結果を提供する。
刺激は幅広いフランス語と英語のコントラストを検査し、自然な読み上げ音声のコーパスから直接抽出する。
教師なしモデルや教師付き多言語モデルとは異なり、標準教師付き単言語HMM-GMM音声認識システムでは、携帯電話の識別に長けながら、表現空間が非常に優れていることを示す。
- 参考スコア(独自算出の注目度): 11.646802225841153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a data set and methods to compare speech processing
models and human behaviour on a phone discrimination task. We provide
Perceptimatic, an open data set which consists of French and English speech
stimuli, as well as the results of 91 English- and 93 French-speaking
listeners. The stimuli test a wide range of French and English contrasts, and
are extracted directly from corpora of natural running read speech, used for
the 2017 Zero Resource Speech Challenge. We provide a method to compare humans'
perceptual space with models' representational space, and we apply it to models
previously submitted to the Challenge. We show that, unlike unsupervised models
and supervised multilingual models, a standard supervised monolingual HMM-GMM
phone recognition system, while good at discriminating phones, yields a
representational space very different from that of human native listeners.
- Abstract(参考訳): 本稿では,電話識別タスクにおける音声処理モデルと人間の行動を比較するためのデータセットと手法を提案する。
フランス語と英語の音声刺激からなるオープンデータセットであるperceptimaticと、91人の英語話者と93人のフランス語話者の結果を提供する。
この刺激は、幅広いフランス語と英語のコントラストをテストし、2017年のzero resource speech challengeで使用された自然に流れる読み上げ音声のコーパスから直接抽出される。
我々は,人間の知覚空間とモデルの表現空間を比較する手法を提案し,課題に以前に提出したモデルに適用する。
教師なしモデルや教師付き多言語モデルとは異なり、標準教師付き単言語HMM-GMM音声認識システムでは、携帯電話の識別が得意であるが、人間のネイティブリスナーとはかなり異なる表現空間が得られることを示す。
関連論文リスト
- Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - Natural language guidance of high-fidelity text-to-speech with synthetic
annotations [13.642358232817342]
本稿では,話者識別,スタイル,記録条件の様々な側面をラベル付けするスケーラブルな手法を提案する。
次に、この手法を45k時間データセットに適用し、音声言語モデルを訓練する。
その結果, アクセント, 韻律スタイル, チャネル条件, 音響条件の多岐にわたる高忠実度音声生成が得られた。
論文 参考訳(メタデータ) (2024-02-02T21:29:34Z) - Toward Joint Language Modeling for Speech Units and Text [89.32163954508489]
音声単位とテキストの共用言語モデリングについて検討する。
音声とテキストの混在度を評価するための自動計測手法を提案する。
提案手法を用いて音声単位とテキストを混合することにより,SLUタスクにおける音声のみのベースラインを改良することを示す。
論文 参考訳(メタデータ) (2023-10-12T20:53:39Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Do self-supervised speech models develop human-like perception biases? [11.646802225841153]
本稿では,3種類の最先端自己教師型モデル(wav2vec 2.0, HuBERT, CPC)の表現空間について検討する。
CPCモデルは母国語の影響が小さいことを示すが、wav2vec 2.0とHuBERTは言語固有のものではない普遍的な音声認識空間を発達させている。
教師付き電話認識装置の予測との比較では、教師付き3つのモデルが比較的きめ細かい知覚現象を捉えているのに対し、教師付きモデルは聞き手の母国語が知覚に与える影響を捉えるのに優れていることが示唆されている。
論文 参考訳(メタデータ) (2022-05-31T14:21:40Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - The Perceptimatic English Benchmark for Speech Perception Models [11.646802225841153]
ベンチマークは、ABX刺激と91人のアメリカ語を話すリスナーの反応で構成されている。
標準的な英語音声認識器であるDeepSpeechは、英語のリスナーよりも英語の音素識別に特化していることを示す。
論文 参考訳(メタデータ) (2020-05-07T12:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。