論文の概要: PhoWhisper: Automatic Speech Recognition for Vietnamese
- arxiv url: http://arxiv.org/abs/2406.02555v1
- Date: Wed, 27 Mar 2024 13:10:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 08:19:53.622994
- Title: PhoWhisper: Automatic Speech Recognition for Vietnamese
- Title(参考訳): PhoWhisper:ベトナム語の自動音声認識
- Authors: Thanh-Thien Le, Linh The Nguyen, Dat Quoc Nguyen,
- Abstract要約: ベトナム語自動音声認識のためのPhoWhisperを5つのバージョンで導入する。
PhoWhisperの堅牢性は、844時間のデータセット上でWhisperモデルを微調整することで達成される。
ベトナムのASRデータセットのベンチマークにおいて,PhoWhisperの最先端性能を実証した。
- 参考スコア(独自算出の注目度): 12.75681261458148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce PhoWhisper in five versions for Vietnamese automatic speech recognition. PhoWhisper's robustness is achieved through fine-tuning the Whisper model on an 844-hour dataset that encompasses diverse Vietnamese accents. Our experimental study demonstrates state-of-the-art performances of PhoWhisper on benchmark Vietnamese ASR datasets. We have open-sourced PhoWhisper at: https://github.com/VinAIResearch/PhoWhisper
- Abstract(参考訳): ベトナム語自動音声認識のためのPhoWhisperを5つのバージョンで導入する。
PhoWhisperの堅牢性は、様々なベトナム語アクセントを含む844時間のデータセットでWhisperモデルを微調整することで達成される。
ベトナムのASRデータセットのベンチマークにおいて,PhoWhisperの最先端性能を実証した。
https://github.com/VinAIResearch/PhoWhisper.comでPhoWhisperをオープンソース化しました。
関連論文リスト
- Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation [45.29184681700463]
Whisperのような音声モデルは、数十万時間のデータで訓練されているため、より良い音声からテキストへのデコーダを学ぶことができる。
本稿では,Whisper音声認識と翻訳モデルに視覚的特徴を統合するWhisper-Flamingoを提案する。
LRS3 では最先端の ASR WER (0.68%) と AVSR WER (0.76%) を, LRS2 では最先端の ASR WER (1.3%) と AVSR WER (1.4%) を達成した。
論文 参考訳(メタデータ) (2024-06-14T14:36:54Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - VlogQA: Task, Dataset, and Baseline Models for Vietnamese Spoken-Based Machine Reading Comprehension [1.3942150186842373]
本稿では,機械読解作業のためのベトナム語音声コーパスの開発過程について述べる。
ベトナムの既存のMRCコーポラは主にウィキペディアの記事、オンライン新聞、教科書などの公式文書に焦点を当てている。
対照的に、VlogQAはYouTubeからソースされた1,230の文書に基づいて10,076の質問応答ペアで構成されている。
論文 参考訳(メタデータ) (2024-02-05T00:54:40Z) - ViSoBERT: A Pre-Trained Language Model for Vietnamese Social Media Text
Processing [1.1765925931670576]
ベトナムのソーシャルメディアテキストであるViSoBERTに対して,最初のモノリンガル事前学習言語モデルを提案する。
我々の実験では、ViSoBERTはパラメータがはるかに少ないため、ベトナムのソーシャルメディアタスクにおける過去の最先端モデルを上回ることが示されている。
論文 参考訳(メタデータ) (2023-10-17T11:34:50Z) - Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot
Task Generalization [61.60501633397704]
本稿では,最近提案されたWebスケール音声モデルのWhisperの創発的能力について検討する。
タスク固有のプロンプトを、別の大規模モデルを活用するか、あるいはデフォルトのプロンプトで特別なトークンを操作するだけで設計する。
実験の結果,提案手法は3つのゼロショットタスクで10%から45%向上し,SotAの教師付きモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-05-18T16:32:58Z) - MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition
and Robust Speech-to-Text Translation [44.53711548080296]
我々は,多言語音声視覚コーパスであるMuAViCを紹介した。
完全に書き起こされ、6つの英訳と6つの英訳の方向をカバーしている。
この結果から,MuAViCは音声認識・翻訳モデルの構築に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-03-01T16:31:01Z) - A High-Quality and Large-Scale Dataset for English-Vietnamese Speech
Translation [17.35935715147861]
本稿では,508時間音声を用いた英語-ベトナム語音声翻訳のための高品質で大規模なベンチマークデータセットを提案する。
我々の知る限りでは、これは初めて大規模な英語-ベトナム語音声翻訳研究である。
論文 参考訳(メタデータ) (2022-08-08T16:11:26Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - PhoNLP: A joint multi-task learning model for Vietnamese part-of-speech
tagging, named entity recognition and dependency parsing [8.558842542068778]
PhoNLPと名づけられた最初のマルチタスク学習モデルを提案し,ベトナムの音声合成(POS)タグ付け,エンティティ認識(NER)と依存性解析を行った。
ベトナムのベンチマークデータセットの実験は、PhoNLPが最先端の結果を生成することを示している。
論文 参考訳(メタデータ) (2021-01-05T12:13:09Z) - PhoBERT: Pre-trained language models for Vietnamese [11.685916685552982]
PhoBERTはベトナムで事前訓練された最初の大規模モノリンガル言語モデルである。
実験結果から, PhoBERT は最新の学習済み多言語モデル XLM-R よりも一貫して優れていた。
我々はPhoBERTをリリースし、ベトナムのNLPの今後の研究と下流の応用を促進する。
論文 参考訳(メタデータ) (2020-03-02T10:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。