論文の概要: Automatic Dialect Density Estimation for African American English
- arxiv url: http://arxiv.org/abs/2204.00967v1
- Date: Sun, 3 Apr 2022 01:34:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 10:03:43.247116
- Title: Automatic Dialect Density Estimation for African American English
- Title(参考訳): アフリカ系アメリカ人英語の自動方言密度推定
- Authors: Alexander Johnson, Kevin Everson, Vijay Ravi, Anissa Gladney, Mari
Ostendorf, Abeer Alwan
- Abstract要約: アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
- 参考スコア(独自算出の注目度): 74.44807604000967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we explore automatic prediction of dialect density of the
African American English (AAE) dialect, where dialect density is defined as the
percentage of words in an utterance that contain characteristics of the
non-standard dialect. We investigate several acoustic and language modeling
features, including the commonly used X-vector representation and ComParE
feature set, in addition to information extracted from ASR transcripts of the
audio files and prosodic information. To address issues of limited labeled
data, we use a weakly supervised model to project prosodic and X-vector
features into low-dimensional task-relevant representations. An XGBoost model
is then used to predict the speaker's dialect density from these features and
show which are most significant during inference. We evaluate the utility of
these features both alone and in combination for the given task. This work,
which does not rely on hand-labeled transcripts, is performed on audio segments
from the CORAAL database. We show a significant correlation between our
predicted and ground truth dialect density measures for AAE speech in this
database and propose this work as a tool for explaining and mitigating bias in
speech technology.
- Abstract(参考訳): 本稿では,非標準方言の特徴を含む発話中の単語の割合として方言密度が定義されるアフリカ系アメリカ人英語(aae)方言の方言密度の自動予測について検討する。
本稿では,音声ファイルのASRテキストから抽出した情報と韻律情報に加えて,一般的なXベクトル表現やComParE特徴セットなどの音響・言語モデリング機能について検討する。
限定ラベル付きデータの問題を解決するために,低次元タスク関連表現に韻律とXベクトル特徴を投影する弱教師付きモデルを用いる。
次に、XGBoostモデルを用いて、これらの特徴から話者の方言密度を予測し、推論時に最も重要なものを示す。
我々は、これらの機能の有用性を、与えられたタスクに対して単独と組み合わせで評価する。
この作業は手書き文字起こしに依存しないもので、CORAALデータベースの音声セグメントで実行される。
本データベースでは,aae音声に対する予測的・根拠的真理弁証密度尺度と有意な相関関係を示し,この研究を音声技術におけるバイアスの説明と緩和のためのツールとして提案する。
関連論文リスト
- Surprise! Uniform Information Density Isn't the Whole Story: Predicting Surprisal Contours in Long-form Discourse [54.08750245737734]
話者は、階層的に構造化された談話モデル内の位置に基づいて、情報率を変調する。
階層的予測器は談話の情報輪郭の重要な予測器であり,深い階層的予測器は浅い予測器よりも予測力が高いことがわかった。
論文 参考訳(メタデータ) (2024-10-21T14:42:37Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - Establishing degrees of closeness between audio recordings along
different dimensions using large-scale cross-lingual models [4.349838917565205]
そこで本稿では,メタデータを慎重にキュレートした音声録音におけるABXテストを用いた教師なしの新しい手法を提案する。
3つの実験が考案され、1つは室内音響、もう1つは言語学的ジャンル、もう1つは音声学的側面である。
その結果,異なる言語・言語的特徴を持つ記録から抽出した表現は,同じ線に沿って異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-08T11:31:23Z) - From `Snippet-lects' to Doculects and Dialects: Leveraging Neural
Representations of Speech for Placing Audio Signals in a Language Landscape [3.96673286245683]
XLSR-53は音声の多言語モデルであり、音声からベクトル表現を構築する。
我々は、最大プーリングを使用して、神経表現を「スニペットレクト」から「ドキュレクト」に集約する。
11のコーパス間の類似度測定は、同一言語の方言として知られているものの間に最も近い関係をもたらす。
論文 参考訳(メタデータ) (2023-05-29T20:37:06Z) - End-to-End Automatic Speech Recognition model for the Sudanese Dialect [0.0]
本稿では,スーダン方言における音声認識モデルの設計の可能性を検討する。
本稿では,スーダン方言の概要と表現資源の収集作業,および質素なデータセット構築のための前処理について述べる。
設計されたモデルは、現在の認識タスクに関するいくつかの洞察を与え、平均的なラベルエラーレート73.67%に達した。
論文 参考訳(メタデータ) (2022-12-21T07:35:33Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - English Accent Accuracy Analysis in a State-of-the-Art Automatic Speech
Recognition System [3.4888132404740797]
様々なラベル付き英語アクセントを持つコーパスからの未認識データを用いて,最先端の自動音声認識モデルを評価する。
本研究は,アクセントの多様性に関して,訓練コーパスで最も普及しているアクセントに有利な正確性バイアスが存在することを示す。
論文 参考訳(メタデータ) (2021-05-09T08:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。