論文の概要: Probing for Phonology in Self-Supervised Speech Representations: A Case Study on Accent Perception
- arxiv url: http://arxiv.org/abs/2506.17542v1
- Date: Sat, 21 Jun 2025 01:44:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.466032
- Title: Probing for Phonology in Self-Supervised Speech Representations: A Case Study on Accent Perception
- Title(参考訳): 自己監督型音声表現における音韻探査 : アクセント知覚を事例として
- Authors: Nitin Venkateswaran, Kevin Tang, Ratree Wayland,
- Abstract要約: 本研究では,音韻的特徴レベルの変化が音節アクセントの知覚にどのように影響するかを検討する。
本研究は,ヒンディー語母語話者の英語で一意に生成する,ラビオ・アポキシマント,ラピオ・タップ,レトロフレックス・ストップの3つのセグメントに着目した。
- 参考スコア(独自算出の注目度): 0.8624680612413766
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Traditional models of accent perception underestimate the role of gradient variations in phonological features which listeners rely upon for their accent judgments. We investigate how pretrained representations from current self-supervised learning (SSL) models of speech encode phonological feature-level variations that influence the perception of segmental accent. We focus on three segments: the labiodental approximant, the rhotic tap, and the retroflex stop, which are uniformly produced in the English of native speakers of Hindi as well as other languages in the Indian sub-continent. We use the CSLU Foreign Accented English corpus (Lander, 2007) to extract, for these segments, phonological feature probabilities using Phonet (V\'asquez-Correa et al., 2019) and pretrained representations from Wav2Vec2-BERT (Barrault et al., 2023) and WavLM (Chen et al., 2022) along with accent judgements by native speakers of American English. Probing analyses show that accent strength is best predicted by a subset of the segment's pretrained representation features, in which perceptually salient phonological features that contrast the expected American English and realized non-native English segments are given prominent weighting. A multinomial logistic regression of pretrained representation-based segment distances from American and Indian English baselines on accent ratings reveals strong associations between the odds of accent strength and distances from the baselines, in the expected directions. These results highlight the value of self-supervised speech representations for modeling accent perception using interpretable phonological features.
- Abstract(参考訳): 従来のアクセント知覚モデルは、聴取者がアクセント判断に頼っている音韻学的特徴における勾配変化の役割を過小評価する。
音声の自己教師付き学習(SSL)モデルからの事前学習表現が音韻的特徴レベルの変化を符号化し、セグメントアクセントの知覚にどのように影響するかを検討する。
インド亜大陸の他の言語と同様にヒンディー語母語話者の英語で一様に生産されるラビオデンタル・アポキシマント(英語版)、ラピオ・タップ(英語版)、レトロフレックス・ストップ(英語版)の3つの部分に焦点を当てた。
我々はCSLU Foreign Accented English corpus (Lander, 2007) を用いてこれらのセグメントを抽出し、これらのセグメントに対して、Phonet (V\'asquez-Correa et al , 2019) を用いた音韻的特徴確率と、Wav2Vec2-BERT (Barrault et al , 2023) と WavLM (Chen et al , 2022) の事前訓練された表現を、アメリカ英語の母語話者によるアクセント判定とともに抽出する。
調査分析によると、アクセントの強さは、そのセグメントの事前訓練された表現特徴のサブセットによって最もよく予測され、予想されるアメリカ英語と対照的な知覚的に健全な音韻学的特徴を持ち、非ネイティブな英語セグメントに顕著な重み付けが与えられる。
アクセント評価に基づくアメリカ英語とインド英語のベースラインからの事前訓練された表現ベースセグメント距離の多項ロジスティック回帰は、アクセント強度の確率とベースラインからの距離との強い関係を期待方向に示している。
これらの結果は、解釈可能な音韻的特徴を用いたアクセント知覚をモデル化するための自己教師付き音声表現の価値を強調した。
関連論文リスト
- Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Transfer the linguistic representations from TTS to accent conversion
with non-parallel data [7.376032484438044]
アクセント変換は、話者のアイデンティティを保ちながら、ソース音声のアクセントをターゲットアクセントに変換することを目的としている。
本稿ではアクセントに依存しない言語表現を学習するアクセント変換のための新しい非自己回帰フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-07T16:39:34Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - Synthetic Cross-accent Data Augmentation for Automatic Speech
Recognition [18.154258453839066]
我々は、ネイティブな米国英語音声をアクセント付き発音に変換するアクセント変換モデル(ACM)を改善した。
我々はACM訓練に音声知識を取り入れ、合成波形における発音パターンの再現性について正確なフィードバックを提供する。
ネイティブ・イングリッシュ・データセットと非ネイティブ・イングリッシュ・データセットに対する我々のアプローチを評価し、合成アクセント付きデータにより、アクセントの出現した音声をよりよく理解できるようになったことを発見した。
論文 参考訳(メタデータ) (2023-03-01T20:05:19Z) - Explicit Intensity Control for Accented Text-to-speech [65.35831577398174]
TTSの過程におけるアクセントの強度の制御は、非常に興味深い研究方向である。
近年の作業は、話者とアクセント情報をアンタングルし、そのアクセント強度を制御するために損失重量を調整するために、話者対アダルロスを設計している。
本稿では,アクセント付きTSのための直感的かつ明示的なアクセント強度制御方式を提案する。
論文 参考訳(メタデータ) (2022-10-27T12:23:41Z) - Low-resource Accent Classification in Geographically-proximate Settings:
A Forensic and Sociophonetics Perspective [8.002498051045228]
アクセント付き音声認識とアクセント分類は、音声技術における比較的未探索の研究分野である。
近年の深層学習法とトランスフォーマーを用いた事前学習モデルは,両領域で高い性能を達成している。
そこで本研究では,北イングランドの5つの都市品種から抽出した105の話者記録に基づいて,3つの主アクセントモデリング手法と2つの異なる分類器の組み合わせについて検討した。
論文 参考訳(メタデータ) (2022-06-26T01:25:17Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - AccentDB: A Database of Non-Native English Accents to Assist Neural
Speech Recognition [3.028098724882708]
まず、ロバストなASRシステムのトレーニングとテストのために、非ネイティブアクセントで音声サンプルの精度の高いデータベースを作成するための重要な要件について説明する。
次に、私たちによって収集された4つのインド英語アクセントのサンプルを含む、そのようなデータベースであるAccentDBを紹介します。
アクセント分類モデルをいくつか提示し, アクセントクラスに対して徹底的に評価する。
論文 参考訳(メタデータ) (2020-05-16T12:38:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。