論文の概要: AfriNames: Most ASR models "butcher" African Names
- arxiv url: http://arxiv.org/abs/2306.00253v1
- Date: Thu, 1 Jun 2023 00:17:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 18:47:55.318895
- Title: AfriNames: Most ASR models "butcher" African Names
- Title(参考訳): AfriNames: ほとんどのASRモデルは「肉屋」アフリカ名
- Authors: Tobi Olatunji, Tejumade Afonja, Bonaventure F. P. Dossou, Atnafu
Lambebo Tonja, Chris Chinenye Emezue, Amina Mardiyyah Rufai, Sahib Singh
- Abstract要約: 名前付きエンティティが話されると、音声認識モデルの性能が著しく低下することを示す。
我々は、アフリカ名のエンティティの表現を増やすために、多言語事前学習とインテリジェントデータ拡張戦略を使用します。
その結果得られた微調整モデルでは、アフリカ名を持つ標本のベースラインに比べて81.5%の相対的なWER改善が見られた。
- 参考スコア(独自算出の注目度): 0.7542793955158708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Useful conversational agents must accurately capture named entities to
minimize error for downstream tasks, for example, asking a voice assistant to
play a track from a certain artist, initiating navigation to a specific
location, or documenting a laboratory result for a patient. However, where
named entities such as ``Ukachukwu`` (Igbo), ``Lakicia`` (Swahili), or
``Ingabire`` (Rwandan) are spoken, automatic speech recognition (ASR) models'
performance degrades significantly, propagating errors to downstream systems.
We model this problem as a distribution shift and demonstrate that such model
bias can be mitigated through multilingual pre-training, intelligent data
augmentation strategies to increase the representation of African-named
entities, and fine-tuning multilingual ASR models on multiple African accents.
The resulting fine-tuned models show an 81.5\% relative WER improvement
compared with the baseline on samples with African-named entities.
- Abstract(参考訳): 例えば、音声アシスタントに特定のアーティストからのトラックを再生するよう依頼したり、特定の場所へのナビゲーションを開始したり、患者のために実験結果を文書化したりする。
しかしながら、 '`Ukachukwu`' (Igbo)、 ``Lakicia`` (Swahili)、 ``Ingabire`` (Rwandan) などの名前付きエンティティが話される場合、自動音声認識(ASR)モデルの性能は著しく低下し、下流システムにエラーを伝播する。
我々は,この問題を分散シフトとしてモデル化し,多言語事前学習によるモデルバイアスの緩和,アフリカ名のエンティティの表現を向上するための知的データ拡張戦略,アフリカ語アクセント上での微調整型多言語ASRモデルなどを示す。
結果として得られた微調整モデルでは、アフリカ名を持つ標本のベースラインに比べて81.5\%の相対的なWER改善が見られた。
関連論文リスト
- Multicultural Name Recognition For Previously Unseen Names [65.268245109828]
本論文は、人名の認識を改善することを目的としており、それは、誰かが生まれたり、名前を変えたりする際にも、成長できる多様なカテゴリーである。
私は103か国の名前を見て、モデルが異なる文化の名前でどれだけうまく機能するかを比較します。
文字入力と単語入力を組み合わせたモデルの方が単語のみのモデルより優れており,従来のNERモデルと比較して精度が向上する可能性がある。
論文 参考訳(メタデータ) (2024-01-23T17:58:38Z) - Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。
過去の研究から,メモリ拡張型自動音声認識モデルを用いた。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - Improving Speech Recognition for African American English With Audio
Classification [17.785482810741367]
本稿では,少数のドメイン外データを用いて,米国英語短波形音声認識器の頑健性を向上させる新しい手法を提案する。
このデータを微調整すると、MAEの品質を低下させることなくAAEとMAEの間で38.5%の単語誤り率格差が減少する。
論文 参考訳(メタデータ) (2023-09-16T19:57:45Z) - Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models [2.4654745083407175]
本稿では,アノテーションプロセスの自動化に不確実性を利用するマルチラウンド適応プロセスを提案する。
この手法はデータアノテーションを合理化し、モデルの不確実性に最も寄与するデータサンプルを戦略的に選択する。
以上の結果から,従来のベースラインよりも平均45%少ないデータを必要とする一方で,WERの相対的改善率は27%であることが示唆された。
論文 参考訳(メタデータ) (2023-06-03T13:11:37Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - A Discriminative Entity-Aware Language Model for Virtual Assistants [4.2854663014000876]
仮想アシスタント(VA)では,高品質な自動音声認識(ASR)が不可欠である。
本研究は、実世界の知識と矛盾する名前付きエンティティ上の多くのASRエラーを観察することから始める。
我々は、従来の差別的なn-gram言語モデリングアプローチを拡張し、知識グラフから現実世界の知識を取り入れた。
論文 参考訳(メタデータ) (2021-06-21T17:50:28Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Contextual RNN-T For Open Domain ASR [41.83409885125617]
自動音声認識(ASR)のためのエンドツーエンド(E2E)システムは、従来のハイブリッドASRシステムの個々のコンポーネントを1つのニューラルネットワークに混ぜる。
これは優れた利点があり、ペアオーディオとテキストのみを使用してシステムをトレーニングすることを制限する。
このため、E2Eモデルは、エンティティ名などのトレーニング中に頻繁に見られることのない稀な単語を正しく認識することが困難になる傾向にある。
本稿では,RNN-Tモデルに改良を加えて,これらの名前付きエンティティワードの性能向上を目的としたメタデータテキストの追加を可能にする。
論文 参考訳(メタデータ) (2020-06-04T04:37:03Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。