Fugu-MT 論文翻訳(概要): Accented Speech Recognition: A Survey

論文の概要: Accented Speech Recognition: A Survey

arxiv url: http://arxiv.org/abs/2104.10747v1
Date: Wed, 21 Apr 2021 20:21:06 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-23 13:48:02.967757
Title: Accented Speech Recognition: A Survey
Title（参考訳）: アクセント付き音声認識:調査
Authors: Arthur Hinsvark (1), Natalie Delworth (1), Miguel Del Rio (1), Quinten McNamara (1), Joshua Dong (1), Ryan Westerman (1), Michelle Huang (1), Joseph Palakapilly (1), Jennifer Drexler (1), Ilya Pirkin (1), Nishchal Bhandari (1), Miguel Jette (1) ((1) Rev.com)
Abstract要約: 本稿では,アクセント音声認識に対する現在有望なアプローチに関する調査を行う。その結果、アクセント間のASRパフォーマンスのバイアスは、ASRのユーザとプロバイダの両方にコストがかかる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic Speech Recognition (ASR) systems generalize poorly on accented speech. The phonetic and linguistic variability of accents present hard challenges for ASR systems today in both data collection and modeling strategies. The resulting bias in ASR performance across accents comes at a cost to both users and providers of ASR. We present a survey of current promising approaches to accented speech recognition and highlight the key challenges in the space. Approaches mostly focus on single model generalization and accent feature engineering. Among the challenges, lack of a standard benchmark makes research and comparison especially difficult.
Abstract（参考訳）: 自動音声認識(asr)システムはアクセント付き音声にあまり依存しない。アクセントの音声的および言語的変動は、今日のデータ収集とモデリング戦略において、ASRシステムにとって難しい課題である。その結果、アクセント間のASRパフォーマンスのバイアスは、ASRのユーザとプロバイダの両方にコストがかかる。本稿では,アクセント付き音声認識における現在有望なアプローチに関する調査を行い,この分野の重要な課題を浮き彫りにする。アプローチは主にシングルモデル一般化とアクセント機能エンジニアリングに重点を置いている。標準ベンチマークの欠如は、研究と比較を特に困難にしている。

関連論文リスト

Accent-Invariant Automatic Speech Recognition via Saliency-Driven Spectrogram Masking [1.108292291257035]
本稿ではアクセントと方言の分類を認識パイプラインに統合するアクセント不変のASRフレームワークを提案する。我々のアプローチは、アクセント固有の手がかりを捉え、その予測に最も影響を及ぼす領域をマスキングするためにスペクトログラムベースの分類器を訓練し、データ拡張にマスク付きスペクトログラムを使用することである。ペルシャ語では、複数の地域アクセントにまたがる新たに収集されたデータセットを導入し、ペルシャ語ASRにおけるアクセント変動のシステマティックなベンチマークを確立した。
論文参考訳（メタデータ） (2025-10-10T16:41:53Z)
Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。 i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文参考訳（メタデータ） (2025-08-28T06:51:42Z)
Recent Trends in Distant Conversational Speech Recognition: A Review of CHiME-7 and 8 DASR Challenges [58.80034860169605]
CHiME-7と8つの遠隔音声認識(DASR)の課題は、多チャンネル、一般化可能、共同自動音声認識(ASR)、対話音声のダイアリゼーションである。本稿では,参加者からの重要傾向を分析しつつ,課題の設計,評価指標,データセット,ベースラインシステムについて概説する。
論文参考訳（メタデータ） (2025-07-24T07:56:24Z)
BERSting at the Screams: A Benchmark for Distanced, Emotional and Shouted Speech Recognition [0.5224038339798622]
本稿では,B(asic) E(motion) R(andom phrase) S(hou)t(s) (BERSt) データセットを提案する。データセットには、地域のアクセントと非ネイティブアクセントの異なる98人のアクターから約4時間の英会話が含まれている。 ASRタスクとSERタスクの初期ベンチマークを行い、ASRは距離とシャウトレベルの増大とともに劣化し、意図した感情に応じて様々なパフォーマンスを示す。
論文参考訳（メタデータ） (2025-04-30T14:08:14Z)
MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-27T09:01:08Z)
Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
ASR Benchmarking: Need for a More Representative Conversational Dataset [3.017953715883516]
本研究では、大人同士の非構造的な会話からなる、TalkBankから派生した多言語会話データセットを提案する。その結果,会話環境下でのテストでは,様々な最先端のASRモデルに対して顕著な性能低下がみられた。
論文参考訳（メタデータ） (2024-09-18T15:03:04Z)
Clustering and Mining Accented Speech for Inclusive and Fair Speech Recognition [18.90193320368228]
フェア音声認識システムのためのアクセントクラスタリングとマイニング方式を提案する。アクセント認識のために,教師付きアクセントデータの限られたサイズを克服するために3つのスキームを適用した。インドアクセント音声の微調整では,無作為なサンプル音声の微調整に比べて10.0%と5.3%の相対的な改善が見られた。
論文参考訳（メタデータ） (2024-08-05T16:00:07Z)
Improving Self-supervised Pre-training using Accent-Specific Codebooks [48.409296549372414]
自己教師型学習のためのアクセント認識適応技術 Mozilla Common Voiceデータセットでは、提案手法は他のアクセント適応手法よりも優れています。
論文参考訳（メタデータ） (2024-07-04T08:33:52Z)
Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文参考訳（メタデータ） (2024-06-12T16:30:58Z)
A New Benchmark for Evaluating Automatic Speech Recognition in the Arabic Call Domain [0.0]
この研究は、アラビア語における電話会話の課題に対処するために、アラビア語音声認識のための包括的なベンチマークを導入する試みである。我々の研究は、アラビア方言の幅広い範囲を包含するだけでなく、コールベースのコミュニケーションの現実的な条件をエミュレートする堅牢なベンチマークを確立することを目的としている。
論文参考訳（メタデータ） (2024-03-07T07:24:32Z)
MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文参考訳（メタデータ） (2024-01-07T08:59:32Z)
Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文参考訳（メタデータ） (2023-10-24T16:10:58Z)
On the Impact of Speech Recognition Errors in Passage Retrieval for Spoken Question Answering [13.013751306590303]
合成ASR雑音に対する語彙・高密度レトリバーのロバスト性について検討した。我々は,人間の声による質問を含む新しいデータセットを作成し,その書き起こしを用いて,合成ASRノイズの代わりに自然なASRノイズを扱う場合に,検索性能がさらに劣化することを示す。
論文参考訳（メタデータ） (2022-09-26T18:29:36Z)
ASR data augmentation in low-resource settings using cross-lingual multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文参考訳（メタデータ） (2022-03-29T11:55:30Z)
Contextualized Attention-based Knowledge Transfer for Spoken Conversational Question Answering [63.72278693825945]
音声対話型質問応答 (SCQA) は複雑な対話の流れをモデル化するために機械を必要とする。本稿では,新しい文脈型注意型蒸留手法CADNetを提案する。 Spoken-CoQAデータセット上で広範な実験を行い、本手法が優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2020-10-21T15:17:18Z)
AccentDB: A Database of Non-Native English Accents to Assist Neural Speech Recognition [3.028098724882708]
まず、ロバストなASRシステムのトレーニングとテストのために、非ネイティブアクセントで音声サンプルの精度の高いデータベースを作成するための重要な要件について説明する。次に、私たちによって収集された4つのインド英語アクセントのサンプルを含む、そのようなデータベースであるAccentDBを紹介します。アクセント分類モデルをいくつか提示し, アクセントクラスに対して徹底的に評価する。
論文参考訳（メタデータ） (2020-05-16T12:38:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。