Fugu-MT 論文翻訳(概要): AccentFold: A Journey through African Accents for Zero-Shot ASR Adaptation to Target Accents

論文の概要: AccentFold: A Journey through African Accents for Zero-Shot ASR Adaptation to Target Accents

arxiv url: http://arxiv.org/abs/2402.01152v2
Date: Mon, 5 Feb 2024 05:45:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 11:56:16.525766
Title: AccentFold: A Journey through African Accents for Zero-Shot ASR Adaptation to Target Accents
Title（参考訳）: AccentFold: アフリカのアクセントを通したアセットをターゲットとするゼロショットASR適応
Authors: Abraham Toluwase Owodunni, Aditya Yadavalli, Chris Chinenye Emezue, Tobi Olatunji, Clinton C Mbataku
Abstract要約: 本稿では、学習したアクセント埋め込み間の空間的関係を利用して自動音声認識(ASR)を改善するAccentFoldを提案する。 100以上のアフリカのアクセントを表す音声埋め込みの探索分析により,興味深い空間的アクセント関係が明らかとなった。本研究は,言語的関係を活用して,ターゲットアクセントへのASR適応を改善する可能性を強調した。
参考スコア（独自算出の注目度）: 5.746007214645182
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Despite advancements in speech recognition, accented speech remains challenging. While previous approaches have focused on modeling techniques or creating accented speech datasets, gathering sufficient data for the multitude of accents, particularly in the African context, remains impractical due to their sheer diversity and associated budget constraints. To address these challenges, we propose AccentFold, a method that exploits spatial relationships between learned accent embeddings to improve downstream Automatic Speech Recognition (ASR). Our exploratory analysis of speech embeddings representing 100+ African accents reveals interesting spatial accent relationships highlighting geographic and genealogical similarities, capturing consistent phonological, and morphological regularities, all learned empirically from speech. Furthermore, we discover accent relationships previously uncharacterized by the Ethnologue. Through empirical evaluation, we demonstrate the effectiveness of AccentFold by showing that, for out-of-distribution (OOD) accents, sampling accent subsets for training based on AccentFold information outperforms strong baselines a relative WER improvement of 4.6%. AccentFold presents a promising approach for improving ASR performance on accented speech, particularly in the context of African accents, where data scarcity and budget constraints pose significant challenges. Our findings emphasize the potential of leveraging linguistic relationships to improve zero-shot ASR adaptation to target accents.
Abstract（参考訳）: 音声認識の進歩にもかかわらず、アクセント付き音声は依然として困難である。これまでのアプローチでは、モデリング技術やアクセント付き音声データセットの作成に重点を置いてきたが、多くのアクセント、特にアフリカの文脈で十分なデータを集めることは、その多様性と関連する予算上の制約のために実用的ではない。このような課題に対処するために,学習したアクセント埋め込み間の空間的関係を利用して下流音声認識(ASR)を改善するAccentFoldを提案する。 100以上のアフリカのアクセントを表す音声埋め込みの探索分析により,地理的・系学的類似性を強調する興味深い空間的アクセント関係が明らかになった。さらに,エトノローグによるアクセント関係も発見する。経験的評価を通じて,アクセントフォールド情報に基づく学習用アクセントサブセットのサンプリングが,相対的なwr改善率4.6%を上回っていることを示すことにより,アクセントフォールドの有効性を実証する。 AccentFoldは、アクセント付き音声、特にデータ不足と予算制約が大きな課題をもたらすアフリカのアクセントの文脈で、ASRのパフォーマンスを改善するための有望なアプローチを提示している。本研究は,言語的関係を利用して,ターゲットアクセントに対するゼロショットASR適応を改善する可能性を強調した。

関連論文リスト

Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。 i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文参考訳（メタデータ） (2025-08-28T06:51:42Z)
Incorporating Linguistic Constraints from External Knowledge Source for Audio-Visual Target Speech Extraction [87.49303116989708]
AV-TSEの補助的知識源として,事前学習言語モデル (PSLM) と事前学習言語モデル (PLM) の可能性を検討する。本研究では, AV-TSE モデルに対するPSLM や PLM からの言語制約を追加の監視信号として活用することを提案する。推論中に余分な計算コストがなければ、提案手法は音声品質と知能性を一貫して改善する。
論文参考訳（メタデータ） (2025-06-11T14:36:26Z)
Improving Pronunciation and Accent Conversion through Knowledge Distillation And Synthetic Ground-Truth from Native TTS [52.89324095217975]
アクセント変換に対する従来のアプローチは主に非ネイティブ音声をよりネイティブにすることを目的としていた。我々は、アクセント変換だけでなく、非ネイティブアクセント話者の発音を改善する新しいACアプローチを開発した。
論文参考訳（メタデータ） (2024-10-19T06:12:31Z)
Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文参考訳（メタデータ） (2024-09-30T19:52:10Z)
Improving Self-supervised Pre-training using Accent-Specific Codebooks [48.409296549372414]
自己教師型学習のためのアクセント認識適応技術 Mozilla Common Voiceデータセットでは、提案手法は他のアクセント適応手法よりも優れています。
論文参考訳（メタデータ） (2024-07-04T08:33:52Z)
Transfer the linguistic representations from TTS to accent conversion with non-parallel data [7.376032484438044]
アクセント変換は、話者のアイデンティティを保ちながら、ソース音声のアクセントをターゲットアクセントに変換することを目的としている。本稿ではアクセントに依存しない言語表現を学習するアクセント変換のための新しい非自己回帰フレームワークを提案する。
論文参考訳（メタデータ） (2024-01-07T16:39:34Z)
Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文参考訳（メタデータ） (2023-10-24T16:10:58Z)
Synthetic Cross-accent Data Augmentation for Automatic Speech Recognition [18.154258453839066]
我々は、ネイティブな米国英語音声をアクセント付き発音に変換するアクセント変換モデル(ACM)を改善した。我々はACM訓練に音声知識を取り入れ、合成波形における発音パターンの再現性について正確なフィードバックを提供する。ネイティブ・イングリッシュ・データセットと非ネイティブ・イングリッシュ・データセットに対する我々のアプローチを評価し、合成アクセント付きデータにより、アクセントの出現した音声をよりよく理解できるようになったことを発見した。
論文参考訳（メタデータ） (2023-03-01T20:05:19Z)
Deep Discriminative Feature Learning for Accent Recognition [14.024346215923972]
我々は、畳み込み型リカレントニューラルネットワークをフロントエンドエンコーダとして採用し、レカレントニューラルネットワークを用いて局所的特徴を統合し、発話レベルのアクセント表現を行う。本稿では,2020年のアクセント認識チャレンジにおいて,識別学習手法を用いたネットワークがアクセント分類におけるベースラインシステムよりもはるかに優れていることを示す。
論文参考訳（メタデータ） (2020-11-25T00:46:47Z)
An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文参考訳（メタデータ） (2020-08-21T17:24:09Z)
Black-box Adaptation of ASR for Accented Speech [52.63060669715216]
我々は,ターゲットアクセントからの音声にブラックボックス,クラウドベースのASRシステムを適用する問題を紹介した。そこで我々は,オープンソースアクセント調整型ローカルモデルとブラックボックスサービスとの結合を新たに提案する。本アルゴリズムは,既存の単語レベルの組み合わせ手法よりもアクセントエラーの修正が優れている。
論文参考訳（メタデータ） (2020-06-24T07:07:49Z)
AccentDB: A Database of Non-Native English Accents to Assist Neural Speech Recognition [3.028098724882708]
まず、ロバストなASRシステムのトレーニングとテストのために、非ネイティブアクセントで音声サンプルの精度の高いデータベースを作成するための重要な要件について説明する。次に、私たちによって収集された4つのインド英語アクセントのサンプルを含む、そのようなデータベースであるAccentDBを紹介します。アクセント分類モデルをいくつか提示し, アクセントクラスに対して徹底的に評価する。
論文参考訳（メタデータ） (2020-05-16T12:38:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。