Fugu-MT 論文翻訳(概要): Adapting Whisper for Regional Dialects: Enhancing Public Services for Vulnerable Populations in the United Kingdom

論文の概要: Adapting Whisper for Regional Dialects: Enhancing Public Services for Vulnerable Populations in the United Kingdom

arxiv url: http://arxiv.org/abs/2501.08502v1
Date: Wed, 15 Jan 2025 00:39:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-16 16:46:28.321621
Title: Adapting Whisper for Regional Dialects: Enhancing Public Services for Vulnerable Populations in the United Kingdom
Title（参考訳）: 地域方言に対するウィスパーの適応:英国における脆弱な人口に対する公共サービスの強化
Authors: Melissa Torgbi, Andrew Clayman, Jordan J. Speight, Harish Tayyar Madabushi,
Abstract要約: 本研究では、バイアス付きASRモデルが公共サービスにおける誤通信につながる現実世界の問題に対処する。まず,ベースラインデータセットとデータを用いたWhisper大容量v3モデルのアウト・オブ・ボックス性能について検討する。次に、微調整されたWhisperが2つの英国地域でのパフォーマンスに与える影響について検討する。
参考スコア（独自算出の注目度）: 1.4811951486536687
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We collect novel data in the public service domain to evaluate the capability of the state-of-the-art automatic speech recognition (ASR) models in capturing regional differences in accents in the United Kingdom (UK), specifically focusing on two accents from Scotland with distinct dialects. This study addresses real-world problems where biased ASR models can lead to miscommunication in public services, disadvantaging individuals with regional accents particularly those in vulnerable populations. We first examine the out-of-the-box performance of the Whisper large-v3 model on a baseline dataset and our data. We then explore the impact of fine-tuning Whisper on the performance in the two UK regions and investigate the effectiveness of existing model evaluation techniques for our real-world application through manual inspection of model errors. We observe that the Whisper model has a higher word error rate (WER) on our test datasets compared to the baseline data and fine-tuning on a given data improves performance on the test dataset with the same domain and accent. The fine-tuned models also appear to show improved performance when applied to the test data outside of the region it was trained on suggesting that fine-tuned models may be transferable within parts of the UK. Our manual analysis of model outputs reveals the benefits and drawbacks of using WER as an evaluation metric and fine-tuning to adapt to regional dialects.
Abstract（参考訳）: 本研究は,英国におけるアクセントの地域差を把握するための,最先端自動音声認識(ASR)モデルの有効性を評価するために,公共サービス領域で新たなデータを収集した。この研究は、偏りのあるASRモデルが公共サービスにおける誤ったコミュニケーションにつながる現実世界の問題に対処し、特に脆弱な人口において、地域的アクセントを持つ個人を困惑させる。まず,ベースラインデータセットとデータを用いたWhisper大容量v3モデルのアウト・オブ・ボックス性能について検討する。次に,2つの英国地域でのWhisperの微調整が性能に与える影響について検討し,実世界のアプリケーションにおける既存のモデル評価手法の有効性について,手動によるモデルエラー検査により検討する。我々はWhisperモデルがベースラインデータと比較してテストデータセット上でワードエラー率(WER)が高いことを観察し、与えられたデータを微調整することで、同じドメインとアクセントでテストデータセットのパフォーマンスを向上させる。微調整されたモデルはまた、英国の一部で微調整されたモデルが転送可能であることを示唆する訓練を受けた地域外のテストデータに適用すると、性能が向上したように見える。モデルアウトプットを手作業で分析した結果,WERを評価指標として用いることのメリットと欠点が明らかになった。

関連論文リスト

$C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。 MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文参考訳（メタデータ） (2025-04-01T13:01:30Z)
Whispering in Amharic: Fine-tuning Whisper for Low-resource Language [3.2858851789879595]
本研究は,AmharicにおけるOpenAIのWhisper自動音声認識モデルについて検討する。 Mozilla Common Voice、FLEURS、BDU-speechデータセットといったデータセットを使って微調整します。最高のパフォーマンスモデルであるWhispersmall-amは、既存のFLEURSデータと新しい、目に見えないAmharicデータセットの混合を微調整することで、大幅に改善される。
論文参考訳（メタデータ） (2025-03-24T09:39:41Z)
Evaluating Standard and Dialectal Frisian ASR: Multilingual Fine-tuning and Language Identification for Improved Low-resource Performance [9.624005980086707]
最先端の手法では、大量のデータに事前訓練されたモデルをラベル付きデータを使って微調整する自己教師ありトランスファーラーニングをデプロイする。我々は,多言語微調整データと補助言語識別タスクを用いて,Frisian ASRの性能を向上させることができることを示す。
論文参考訳（メタデータ） (2025-02-07T12:42:46Z)
Whisper Finetuning on Nepali Language [0.0]
本研究は,ネパール語の転写精度を向上させるために,OpenAIのWhisperモデルを微調整し,包括的で一般化したデータセットを作成することに焦点を当てる。 ASRデータセットと自己記録されたカスタムデータセットを多種多様なアクセント、方言、話し方で活用し、拡張によってさらに充実させます。我々のアプローチは、FleurのデータセットでトレーニングされたWhisperのベースラインモデルよりも優れており、中規模モデルでは36.2%、中型モデルでは23.8%のWER削減を実現している。
論文参考訳（メタデータ） (2024-11-19T15:55:56Z)
Houston we have a Divergence: A Subgroup Performance Analysis of ASR Models [2.5168553347063862]
Fearless Steps APOLLO Community Resourceは、マルチスピーカーチームコミュニケーションの可能性を探るための例外のない機会を提供する。本研究では,ASR(Automatic Speech Recognition, 自動音声認識)手法により, アポロの録音を多かれ少なかれ理解しやすくする特徴を明らかにすることに焦点を当てた。
論文参考訳（メタデータ） (2024-03-31T10:06:19Z)
LLMs and Finetuning: Benchmarking cross-domain performance for hate speech detection [10.014248704653]
本研究では,ヘイトスピーチの同定における事前学習および微調整型大言語モデル(LLM)の有効性と適応性について検討した。 LLMは、事前トレーニングなしでも最先端技術に対して大きな優位性を提供します。我々は、ヘイトスピーチ検出の未来をビジョンとして、ドメイン間の一般化可能性と適切なベンチマークプラクティスを強調した。
論文参考訳（メタデータ） (2023-10-29T10:07:32Z)
Analysing the Impact of Audio Quality on the Use of Naturalistic Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文参考訳（メタデータ） (2023-05-03T08:25:37Z)
Listen, Adapt, Better WER: Source-free Single-utterance Test-time Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文参考訳（メタデータ） (2022-03-27T06:38:39Z)
Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文参考訳（メタデータ） (2021-12-10T20:47:58Z)
Enhancing the Generalization for Intent Classification and Out-of-Domain Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文参考訳（メタデータ） (2021-06-28T08:27:38Z)
Rethinking Evaluation in ASR: Are Our Models Robust Enough? [30.114009549372923]
一般に、残響と付加音の増補により、ドメイン間の一般化性能が向上することを示す。ベンチマークを十分に使うと、平均単語誤り率(WER)のパフォーマンスが実世界のノイズの多いデータのパフォーマンスに良いプロキシを提供することを示した。
論文参考訳（メタデータ） (2020-10-22T14:01:32Z)
Dataset Cartography: Mapping and Diagnosing Datasets with Training Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文参考訳（メタデータ） (2020-09-22T20:19:41Z)
Black-box Adaptation of ASR for Accented Speech [52.63060669715216]
我々は,ターゲットアクセントからの音声にブラックボックス,クラウドベースのASRシステムを適用する問題を紹介した。そこで我々は,オープンソースアクセント調整型ローカルモデルとブラックボックスサービスとの結合を新たに提案する。本アルゴリズムは,既存の単語レベルの組み合わせ手法よりもアクセントエラーの修正が優れている。
論文参考訳（メタデータ） (2020-06-24T07:07:49Z)
Phoneme Boundary Detection using Learnable Segmental Features [31.203969460341817]
音素境界検出は様々な音声処理アプリケーションにおいて重要な第一歩となる。本稿では,音素境界検出タスクのセグメント表現を学習するために,パラメータ化された構造的損失関数と結合したニューラルアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-02-11T14:03:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。