論文の概要: Do self-supervised speech models develop human-like perception biases?
- arxiv url: http://arxiv.org/abs/2205.15819v1
- Date: Tue, 31 May 2022 14:21:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 19:44:49.193127
- Title: Do self-supervised speech models develop human-like perception biases?
- Title(参考訳): 自己教師型音声モデルは人間の知覚バイアスを発達させるか?
- Authors: Juliette Millet, Ewan Dunbar
- Abstract要約: 本稿では,3種類の最先端自己教師型モデル(wav2vec 2.0, HuBERT, CPC)の表現空間について検討する。
CPCモデルは母国語の影響が小さいことを示すが、wav2vec 2.0とHuBERTは言語固有のものではない普遍的な音声認識空間を発達させている。
教師付き電話認識装置の予測との比較では、教師付き3つのモデルが比較的きめ細かい知覚現象を捉えているのに対し、教師付きモデルは聞き手の母国語が知覚に与える影響を捉えるのに優れていることが示唆されている。
- 参考スコア(独自算出の注目度): 11.646802225841153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised models for speech processing form representational spaces
without using any external labels. Increasingly, they appear to be a feasible
way of at least partially eliminating costly manual annotations, a problem of
particular concern for low-resource languages. But what kind of
representational spaces do these models construct? Human perception specializes
to the sounds of listeners' native languages. Does the same thing happen in
self-supervised models? We examine the representational spaces of three kinds
of state-of-the-art self-supervised models: wav2vec 2.0, HuBERT and contrastive
predictive coding (CPC), and compare them with the perceptual spaces of
French-speaking and English-speaking human listeners, both globally and taking
account of the behavioural differences between the two language groups. We show
that the CPC model shows a small native language effect, but that wav2vec 2.0
and HuBERT seem to develop a universal speech perception space which is not
language specific. A comparison against the predictions of supervised phone
recognisers suggests that all three self-supervised models capture relatively
fine-grained perceptual phenomena, while supervised models are better at
capturing coarser, phone-level, effects of listeners' native language, on
perception.
- Abstract(参考訳): 外部ラベルを使わずに音声処理形式表現空間のための自己教師付きモデル
コストのかかる手動アノテーションを少なくとも部分的に取り除くための実現可能な方法として,低リソース言語の特に懸念事項が増している。
しかし、これらのモデルはどのような表現空間を構成するのか?
人間の知覚は聞き手の母語の音に特化する。
同じことが自己監督モデルでも起こるのか?
我々は,3種類の最先端自己教師モデル(wav2vec 2.0, HuBERT, およびコントラスト予測符号化(CPC))の表現空間について検討し, 両言語群間の行動的差異を考慮して, フランス語話者と英語話者の知覚空間と比較した。
CPCモデルは母国語の影響が小さいことを示すが、wav2vec 2.0とHuBERTは言語固有のものではない普遍的な音声認識空間を発達させている。
教師付き電話認識装置の予測との比較では、教師付き3つのモデルが比較的きめ細かい知覚現象を捉えているのに対し、教師付きモデルは聞き手の母語が知覚に与える影響を捉えている。
関連論文リスト
- Probing self-attention in self-supervised speech models for cross-linguistic differences [0.0]
1つの小型自己教師型音声トランスモデル(TERA)の自己認識機構について検討する。
たとえ小さなモデルであっても、学習された注目は、ほぼ完全に対角形からほぼ完全にグローバルなものまで様々である。
トルコ語と英語の注意パターンの顕著な違いを強調し,事前学習中に重要な音韻情報を学ぶことを示す。
論文 参考訳(メタデータ) (2024-09-04T22:47:33Z) - Human-like Linguistic Biases in Neural Speech Models: Phonetic Categorization and Phonotactic Constraints in Wav2Vec2.0 [0.11510009152620666]
We study how how Wav2Vec2solvs phonotactic constraints。
我々は/l/と/r/の音響連続体に音を合成し、制御された文脈に埋め込む。
人間と同様に、Wav2Vec2モデルは、このようなあいまいな音を処理する際に、音素的に許容できるカテゴリーに対してバイアスを示す。
論文 参考訳(メタデータ) (2024-07-03T11:04:31Z) - SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Do self-supervised speech and language models extract similar
representations as human brain? [2.390915090736061]
自己教師付き学習(SSL)によって訓練された音声と言語モデルは、音声と言語知覚の間の脳活動と強い整合性を示す。
我々は2つの代表的なSSLモデルであるWav2Vec2.0とGPT-2の脳波予測性能を評価した。
論文 参考訳(メタデータ) (2023-10-07T01:39:56Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Predicting non-native speech perception using the Perceptual
Assimilation Model and state-of-the-art acoustic models [9.858745856649998]
61母音に対するフランス語および英語話者の音声知覚行動の新しいオープンデータセットを提案する。
音素同化は, 識別行動全体において, きめ細かい音素モデルよりも優れた予測因子であることを示す。
また、wav2vec 2.0は、ネイティブ言語が音声知覚に与える影響を捉えるのが得意ではないが、ネイティブ音素同化に関する情報と相補的であることも示している。
論文 参考訳(メタデータ) (2022-05-31T14:25:59Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - A Brief Overview of Unsupervised Neural Speech Representation Learning [12.850357461259197]
本稿では,過去10年間の音声教育における教師なし表現学習の展開について概観する。
自己教師型手法と確率的潜在変数モデルという2つの主要なモデルカテゴリを同定する。
論文 参考訳(メタデータ) (2022-03-01T11:15:35Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。