Fugu-MT 論文翻訳(概要): Using Data Augmentations and VTLN to Reduce Bias in Dutch End-to-End Speech Recognition Systems

論文の概要: Using Data Augmentations and VTLN to Reduce Bias in Dutch End-to-End Speech Recognition Systems

arxiv url: http://arxiv.org/abs/2307.02009v1
Date: Wed, 5 Jul 2023 03:39:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-06 15:13:30.594648
Title: Using Data Augmentations and VTLN to Reduce Bias in Dutch End-to-End Speech Recognition Systems
Title（参考訳）: オランダ語エンドツーエンド音声認識システムにおけるバイアス低減のためのデータ拡張とVTLN
Authors: Tanvina Patel and Odette Scharenborg
Abstract要約: オランダの異なる年齢層や非ネイティブ話者に対する偏見を減らすことを目的としている。エンドツーエンド(E2E)ASRシステムでは,データ拡張技術として最先端の速度摂動とスペクトル増大を用いる。データ拡張とVTLNの組み合わせにより、各話者群の平均WERとバイアスはそれぞれ6.9%、VTLNは3.9%減少した。
参考スコア（独自算出の注目度）: 17.75067255600971
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speech technology has improved greatly for norm speakers, i.e., adult native speakers of a language without speech impediments or strong accents. However, non-norm or diverse speaker groups show a distinct performance gap with norm speakers, which we refer to as bias. In this work, we aim to reduce bias against different age groups and non-native speakers of Dutch. For an end-to-end (E2E) ASR system, we use state-of-the-art speed perturbation and spectral augmentation as data augmentation techniques and explore Vocal Tract Length Normalization (VTLN) to normalise for spectral differences due to differences in anatomy. The combination of data augmentation and VTLN reduced the average WER and bias across various diverse speaker groups by 6.9% and 3.9%, respectively. The VTLN model trained on Dutch was also effective in improving performance of Mandarin Chinese child speech, thus, showing generalisability across languages
Abstract（参考訳）: 音声技術は、標準話者、すなわち、音声障害や強いアクセントのない言語の成人ネイティブ話者に対して、大幅に改善されている。しかし、非ノルムまたは多様な話者グループは、我々がバイアスと呼ぶ通常の話者と異なるパフォーマンスの差を示している。本研究では,オランダの異なる年齢層と非母語話者に対する偏見を低減することを目的とする。エンドツーエンド(E2E)ASRシステムでは,データ拡張技術として最先端の速度摂動とスペクトル増大を用い,声道長正規化(VTLN)を探索し,解剖学の違いによるスペクトル差の正規化を行う。データ拡張とvtlnの組み合わせにより、様々な話者グループの平均werとバイアスは、それぞれ6.9%と3.9%減少した。オランダ語で訓練されたvtlnモデルも中国語音声の性能向上に有効であり,言語間の汎用性を示した。

関連論文リスト

ELEGANCE: Efficient LLM Guidance for Audio-Visual Target Speech Extraction [88.41471266579333]
本稿では,大規模言語モデル(LLM)からの言語知識をAV-TSEモデルに組み込む新しいフレームワークであるELEGANCEを提案する。 2つのAV-TSEバックボーン上でのRoBERTa、Qwen3-0.6B、Qwen3-4Bによる総合的な実験は大幅に改善された。
論文参考訳（メタデータ） (2025-11-09T08:50:11Z)
In-Context Learning Boosts Speech Recognition via Human-like Adaptation to Speakers and Language Varieties [24.74769794165231]
本稿では,Phi-4 Multimodal におけるコンテキスト内学習(ICL)を実現するスケーラブルなフレームワークを提案する。単語の誤り率を相対的に19.7%減少させるのは、12の例に過ぎない。全体として、我々の新しいICL適応方式は、人間の聴取者と同様の性能を示す。
論文参考訳（メタデータ） (2025-05-20T20:20:37Z)
Whisper Speaker Identification: Leveraging Pre-Trained Multilingual Transformers for Robust Speaker Embeddings [0.0]
我々は,Whisper自動音声認識モデルを多言語データに基づいて事前訓練したフレームワークであるWSI(Whisper Speaker Identification)を提案する。本稿では,Whisper言語に依存しない音響表現の活用により,多様な言語にまたがる話者を効果的に区別する。
論文参考訳（メタデータ） (2025-03-13T15:11:28Z)
DENOASR: Debiasing ASRs through Selective Denoising [5.544079217915537]
本稿では,2つの性別グループ間の単語誤り率の相違を低減するために,選択的なデノケーション手法であるDeNOASRを提案する。一般的な2つの音声認識手法である「DEMUCS」と「LE」を組み合わせることで、全体的な性能を損なうことなく、ASRの相違を効果的に軽減できることがわかった。
論文参考訳（メタデータ） (2024-10-22T05:39:24Z)
Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文参考訳（メタデータ） (2024-07-08T18:20:24Z)
An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文参考訳（メタデータ） (2024-06-13T08:16:52Z)
Accent Conversion in Text-To-Speech Using Multi-Level VAE and Adversarial Training [14.323313455208183]
包括的音声技術は、特定のアクセントを持つ人々のような特定のグループに対する偏見を消すことを目的としている。本稿では,アクセント付き音声合成と変換に逆学習を用いたマルチレベル変分オートエンコーダを用いたTSモデルを提案する。
論文参考訳（メタデータ） (2024-06-03T05:56:02Z)
Task-Agnostic Low-Rank Adapters for Unseen English Dialects [52.88554155235167]
LLM(Large Language Models)は、標準アメリカ英語を好んで不均等に重み付けされたコーパスで訓練される。 HyperLoRAは、方言特化情報と方言横断情報を混同することにより、タスクに依存しない方法で未確認の方言への一般化を改善する。
論文参考訳（メタデータ） (2023-11-02T01:17:29Z)
Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文参考訳（メタデータ） (2022-06-15T07:20:28Z)
Personalized Adversarial Data Augmentation for Dysarthric and Elderly Speech Recognition [30.885165674448352]
本稿では,高齢者および変形性音声認識のための新しい話者依存型(GAN)に基づくデータ拡張手法を提案する。 GANベースのデータ拡張アプローチは、ベースライン速度摂動法を最大0.91%、絶対値3.0%で一貫して上回っている。 LHUCベースの話者適応を適用した後、一貫性のある性能改善が維持される。
論文参考訳（メタデータ） (2022-05-13T04:29:49Z)
On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文参考訳（メタデータ） (2021-06-07T01:55:34Z)
Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文参考訳（メタデータ） (2021-03-12T10:10:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。