論文の概要: Automatic Dialect Density Estimation for African American English
- arxiv url: http://arxiv.org/abs/2204.00967v1
- Date: Sun, 3 Apr 2022 01:34:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 10:03:43.247116
- Title: Automatic Dialect Density Estimation for African American English
- Title(参考訳): アフリカ系アメリカ人英語の自動方言密度推定
- Authors: Alexander Johnson, Kevin Everson, Vijay Ravi, Anissa Gladney, Mari
Ostendorf, Abeer Alwan
- Abstract要約: アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
- 参考スコア(独自算出の注目度): 74.44807604000967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we explore automatic prediction of dialect density of the
African American English (AAE) dialect, where dialect density is defined as the
percentage of words in an utterance that contain characteristics of the
non-standard dialect. We investigate several acoustic and language modeling
features, including the commonly used X-vector representation and ComParE
feature set, in addition to information extracted from ASR transcripts of the
audio files and prosodic information. To address issues of limited labeled
data, we use a weakly supervised model to project prosodic and X-vector
features into low-dimensional task-relevant representations. An XGBoost model
is then used to predict the speaker's dialect density from these features and
show which are most significant during inference. We evaluate the utility of
these features both alone and in combination for the given task. This work,
which does not rely on hand-labeled transcripts, is performed on audio segments
from the CORAAL database. We show a significant correlation between our
predicted and ground truth dialect density measures for AAE speech in this
database and propose this work as a tool for explaining and mitigating bias in
speech technology.
- Abstract(参考訳): 本稿では,非標準方言の特徴を含む発話中の単語の割合として方言密度が定義されるアフリカ系アメリカ人英語(aae)方言の方言密度の自動予測について検討する。
本稿では,音声ファイルのASRテキストから抽出した情報と韻律情報に加えて,一般的なXベクトル表現やComParE特徴セットなどの音響・言語モデリング機能について検討する。
限定ラベル付きデータの問題を解決するために,低次元タスク関連表現に韻律とXベクトル特徴を投影する弱教師付きモデルを用いる。
次に、XGBoostモデルを用いて、これらの特徴から話者の方言密度を予測し、推論時に最も重要なものを示す。
我々は、これらの機能の有用性を、与えられたタスクに対して単独と組み合わせで評価する。
この作業は手書き文字起こしに依存しないもので、CORAALデータベースの音声セグメントで実行される。
本データベースでは,aae音声に対する予測的・根拠的真理弁証密度尺度と有意な相関関係を示し,この研究を音声技術におけるバイアスの説明と緩和のためのツールとして提案する。
関連論文リスト
- Establishing degrees of closeness between audio recordings along
different dimensions using large-scale cross-lingual models [4.349838917565205]
そこで本稿では,メタデータを慎重にキュレートした音声録音におけるABXテストを用いた教師なしの新しい手法を提案する。
3つの実験が考案され、1つは室内音響、もう1つは言語学的ジャンル、もう1つは音声学的側面である。
その結果,異なる言語・言語的特徴を持つ記録から抽出した表現は,同じ線に沿って異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-08T11:31:23Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - From `Snippet-lects' to Doculects and Dialects: Leveraging Neural
Representations of Speech for Placing Audio Signals in a Language Landscape [3.96673286245683]
XLSR-53は音声の多言語モデルであり、音声からベクトル表現を構築する。
我々は、最大プーリングを使用して、神経表現を「スニペットレクト」から「ドキュレクト」に集約する。
11のコーパス間の類似度測定は、同一言語の方言として知られているものの間に最も近い関係をもたらす。
論文 参考訳(メタデータ) (2023-05-29T20:37:06Z) - End-to-End Automatic Speech Recognition model for the Sudanese Dialect [0.0]
本稿では,スーダン方言における音声認識モデルの設計の可能性を検討する。
本稿では,スーダン方言の概要と表現資源の収集作業,および質素なデータセット構築のための前処理について述べる。
設計されたモデルは、現在の認識タスクに関するいくつかの洞察を与え、平均的なラベルエラーレート73.67%に達した。
論文 参考訳(メタデータ) (2022-12-21T07:35:33Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - English Accent Accuracy Analysis in a State-of-the-Art Automatic Speech
Recognition System [3.4888132404740797]
様々なラベル付き英語アクセントを持つコーパスからの未認識データを用いて,最先端の自動音声認識モデルを評価する。
本研究は,アクセントの多様性に関して,訓練コーパスで最も普及しているアクセントに有利な正確性バイアスが存在することを示す。
論文 参考訳(メタデータ) (2021-05-09T08:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。