論文の概要: Extracting accent features in spoken Brazilian Portuguese without sociolinguistic labels
- arxiv url: http://arxiv.org/abs/2605.30457v2
- Date: Tue, 02 Jun 2026 18:37:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 17:40:41.56393
- Title: Extracting accent features in spoken Brazilian Portuguese without sociolinguistic labels
- Title(参考訳): 社会言語ラベルのないブラジルポルトガル語音声におけるアクセントの特徴抽出
- Authors: Pedro H. L. Leite, Pedro Benevenuto Valadares, Luiz W. P. Biscainho,
- Abstract要約: ブラジルポルトガル語(pt-BR)の地域アクセント分類は、信頼できるラベリングの必要性に悩まされている。
本研究は,音響ラベルのみを用いた特徴抽出のための新しいワークフローを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Regional accent classification in Brazilian Portuguese (pt-BR) suffers from the need for reliable labeling. While large self-supervised learning (SSL) speech models are powerful, their training pipelines dilute sociophonetic information, since accent labels are generally not reliable or are not used in training objectives. This work introduces a novel workflow for feature extraction using only acoustic labels. By isolating explicit regional accent landmarks and using a phoneme-based forced aligner (ZIPA), our targeted feature set captures dialectal variance more effectively than utterance embeddings, demonstrating that localized features can outperform general-purpose architectures on accent-related tasks using minimal and objective data labels.
- Abstract(参考訳): ブラジルポルトガル語(pt-BR)の地域アクセント分類は、信頼できるラベリングの必要性に悩まされている。
大規模な自己教師付き学習(SSL)音声モデルは強力であるが、アクセントラベルは一般に信頼性が低く、訓練目的に使用されていないため、訓練パイプラインは社会音声情報を希薄化する。
本研究は,音響ラベルのみを用いた特徴抽出のための新しいワークフローを導入する。
音素ベースの強制整合器 (ZIPA) を用いて, 局所的特徴がアクセント関連タスクにおいて, 最小および目的データラベルを用いて, 局所的特徴がアクセント関連タスクの汎用的アーキテクチャより優れていることを示す。
関連論文リスト
- Few-Shot Contrastive Adaptation for Audio Abuse Detection in Low-Resource Indic Languages [3.5238606794194816]
ソーシャルメディアが音声による対話へとシフトするにつれ、虐待的音声検出の重要性が高まっている。
コントラスト言語-オーディオ事前学習が、音声から直接虐待的音声検出を支援できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-04-10T08:23:03Z) - Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling [21.82879779173242]
ラベル付きデータの欠如は、音声分類タスクにおいて共通の課題である。
そこで我々は,新しい多視点擬似ラベル手法を導入したセミスーパーバイザードラーニング(SSL)フレームワークを提案する。
感情認識と認知症検出タスクにおけるSSLフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-09-25T13:51:19Z) - Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。