論文の概要: Towards Robust Speech Recognition for Jamaican Patois Music Transcription
- arxiv url: http://arxiv.org/abs/2507.16834v1
- Date: Tue, 15 Jul 2025 03:42:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.670331
- Title: Towards Robust Speech Recognition for Jamaican Patois Music Transcription
- Title(参考訳): ジャマイカのパトイス音楽転写のためのロバスト音声認識に向けて
- Authors: Jordan Madden, Matthew Stone, Dimitri Johnson, Daniel Geddez,
- Abstract要約: このデータセットを用いて、最先端の自動音声認識モデルを微調整する。
この結果を用いて,ジャマイカのパトワ音声におけるWhisperモデルの性能のスケーリング法則を開発した。
- 参考スコア(独自算出の注目度): 3.162382891218382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although Jamaican Patois is a widely spoken language, current speech recognition systems perform poorly on Patois music, producing inaccurate captions that limit accessibility and hinder downstream applications. In this work, we take a data-centric approach to this problem by curating more than 40 hours of manually transcribed Patois music. We use this dataset to fine-tune state-of-the-art automatic speech recognition (ASR) models, and use the results to develop scaling laws for the performance of Whisper models on Jamaican Patois audio. We hope that this work will have a positive impact on the accessibility of Jamaican Patois music and the future of Jamaican Patois language modeling.
- Abstract(参考訳): ジャマイカ語パトワ語は広く話されている言語であるが、現在の音声認識システムはパトワ音楽では不十分であり、アクセシビリティを制限し下流の応用を妨げる不正確な字幕を生成する。
本研究では、手書きのパトイ音楽の40時間以上をキュレートすることで、この問題に対してデータ中心のアプローチをとる。
このデータセットを用いて、最先端自動音声認識(ASR)モデルを微調整し、結果をジャマイカのパトワ音声上でのWhisperモデルの性能向上のためのスケーリング法則の開発に利用する。
この研究がジャマイカのパトワ音楽のアクセシビリティとジャマイカのパトワ言語モデリングの将来に与える影響を期待する。
関連論文リスト
- A2TTS: TTS for Low Resource Indian Languages [16.782842482372427]
未確認話者のための音声生成を目的とした話者条件付きテキスト音声合成システム(TTS)を提案する。
拡散型TSアーキテクチャを用いて、話者エンコーダは、複数話者生成のためのDDPMデコーダを条件に、短い参照オーディオサンプルから埋め込みを抽出する。
我々は、参照音声を利用するクロスアテンションに基づく継続時間予測機構を採用し、より正確で話者の一貫性のあるタイミングを可能にする。
論文 参考訳(メタデータ) (2025-07-21T06:20:27Z) - Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities [9.473861847584843]
本稿では,MMS(Massively Multilingual Speech)とWhisper(Whisper)という,最先端の音声認識モデルについて述べる。
インドネシア語音声データを様々な変動群で書き起こすモデルの予測能力について検討する。
論文 参考訳(メタデータ) (2024-10-11T14:07:07Z) - Enhancing Low-Resource Language and Instruction Following Capabilities of Audio Language Models [13.855545744177586]
本稿では,低リソース言語タイ語における音声言語モデルの評価を行い,多言語基盤にも拘わらず,言語間能力の欠如が判明した。
本実験は,低リソース言語において,言語固有の学習データと多言語学習データのバランスをとることで,命令追従を改善するための知見を提供する。
提案されたTyphoon-Audioモデルは、既存のオープンソースモデルよりも大幅に優れており、英語とタイ語の両方で最先端のGemini-1.5-Proに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-09-17T09:04:03Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Seamless: Multilingual Expressive and Streaming Speech Translation [71.12826355107889]
本稿では,エンドツーエンドの表現型および多言語翻訳をストリーミング形式で実現するモデル群を紹介する。
まず,多言語およびマルチモーダルのSeamlessM4Tモデル-SeamlessM4T v2の改良版をコントリビュートする。
SeamlessExpressiveとSeamlessStreamingの主なコンポーネントをまとめてSeamlessを作ります。
論文 参考訳(メタデータ) (2023-12-08T17:18:42Z) - Lip Reading for Low-resource Languages by Learning and Combining General
Speech Knowledge and Language-specific Knowledge [57.38948190611797]
本稿では,特に低リソース言語を対象とした新しい唇読解フレームワークを提案する。
低リソース言語は、そのモデルを訓練するのに十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
論文 参考訳(メタデータ) (2023-08-18T05:19:03Z) - LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT [48.28624219567131]
リリックウィズ(LyricWhiz)は、頑健で、多言語で、ゼロショットの自動歌詞書き起こし方式である。
我々は、弱教師付き頑健な音声認識モデルであるWhisperと、今日の最もパフォーマンスの高いチャットベースの大規模言語モデルであるGPT-4を使用している。
実験の結果,LyricWhizは英語の既存手法に比べて単語誤り率を大幅に低下させることがわかった。
論文 参考訳(メタデータ) (2023-06-29T17:01:51Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Pronunciation Generation for Foreign Language Words in Intra-Sentential
Code-Switching Speech Recognition [14.024346215923972]
コードスイッチング(Code Switching)とは、文や言説の中で言語を切り替える現象である。
本稿では,限られたコードスイッチングデータを駆動材料として利用し,コードスイッチング認識技術を迅速に開発するためのショートカットを探索する。
論文 参考訳(メタデータ) (2022-10-26T13:19:35Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - ADIMA: Abuse Detection In Multilingual Audio [28.64185949388967]
音声テキストにおける乱用コンテンツ検出は、音声認識(ASR)を実行し、自然言語処理の進歩を活用することで対処することができる。
ADIMAは,言語学的に多様であり,倫理的にも特徴的であり,注釈付きかつバランスの取れた多言語多義性検出音声データセットである。
論文 参考訳(メタデータ) (2022-02-16T11:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。