Fugu-MT 論文翻訳(概要): PhoWhisper: Automatic Speech Recognition for Vietnamese

論文の概要: PhoWhisper: Automatic Speech Recognition for Vietnamese

arxiv url: http://arxiv.org/abs/2406.02555v1
Date: Wed, 27 Mar 2024 13:10:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-01 08:19:53.622994
Title: PhoWhisper: Automatic Speech Recognition for Vietnamese
Title（参考訳）: PhoWhisper:ベトナム語の自動音声認識
Authors: Thanh-Thien Le, Linh The Nguyen, Dat Quoc Nguyen,
Abstract要約: ベトナム語自動音声認識のためのPhoWhisperを5つのバージョンで導入する。 PhoWhisperの堅牢性は、844時間のデータセット上でWhisperモデルを微調整することで達成される。ベトナムのASRデータセットのベンチマークにおいて,PhoWhisperの最先端性能を実証した。
参考スコア（独自算出の注目度）: 12.75681261458148
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce PhoWhisper in five versions for Vietnamese automatic speech recognition. PhoWhisper's robustness is achieved through fine-tuning the Whisper model on an 844-hour dataset that encompasses diverse Vietnamese accents. Our experimental study demonstrates state-of-the-art performances of PhoWhisper on benchmark Vietnamese ASR datasets. We have open-sourced PhoWhisper at: https://github.com/VinAIResearch/PhoWhisper
Abstract（参考訳）: ベトナム語自動音声認識のためのPhoWhisperを5つのバージョンで導入する。 PhoWhisperの堅牢性は、様々なベトナム語アクセントを含む844時間のデータセットでWhisperモデルを微調整することで達成される。ベトナムのASRデータセットのベンチマークにおいて,PhoWhisperの最先端性能を実証した。 https://github.com/VinAIResearch/PhoWhisper.comでPhoWhisperをオープンソース化しました。

関連論文リスト

ViSpeechFormer: A Phonemic Approach for Vietnamese Automatic Speech Recognition [7.250850162908686]
ベトナム語自動音声認識(ASR)のための音素ベースアプローチViSpeechFormer(textbfVietnamese textbfSpeech TranstextbfFormer)を提案する。ベトナムの2つのASRデータセットに対する実験は、ViSpeechFormerが強いパフォーマンスを実現し、語彙外単語よりも一般化し、トレーニングバイアスの影響を受けないことを示している。
論文参考訳（メタデータ） (2026-02-10T17:26:55Z)
Zero-Shot Text-to-Speech for Vietnamese [12.75681261458148]
PhoAudiobookはベトナム語による音声合成のための991時間の高品質なオーディオを含むデータセットである。我々は、VALL-E、VoiceCraft、XTTS-V2の3つの主要なゼロショットTSモデルについて実験を行った。
論文参考訳（メタデータ） (2025-06-02T05:07:06Z)
Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations [65.59784436914548]
ローマ語文を予測して言語に依存しない音声表現を学習するAV-Romanizerについて紹介する。予測されたローマ語文を言語固有のグラフエムに変換し、提案したカスケードゼロ-AVSRを形成する。音声・言語多様性の広帯域化を図るため,MARC(Multilingual Audio-Visual Romanized Corpus)も導入した。
論文参考訳（メタデータ） (2025-03-08T16:40:13Z)
A Large-Scale Benchmark for Vietnamese Sentence Paraphrases [1.1842520528140819]
本稿では,ベトナム語の文パラフレージングのための高品質なデータセットであるViSPについて述べる。私たちの知る限りでは、ベトナム語のパラフレーズに関する大規模な研究はこれが初めてである。
論文参考訳（メタデータ） (2025-02-11T02:30:21Z)
Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation [45.29184681700463]
Whisperのような音声モデルは、数十万時間のデータで訓練されているため、より良い音声からテキストへのデコーダを学ぶことができる。本稿では,Whisper音声認識と翻訳モデルに視覚的特徴を統合するWhisper-Flamingoを提案する。 LRS3 では最先端の ASR WER (0.68%) と AVSR WER (0.76%) を, LRS2 では最先端の ASR WER (1.3%) と AVSR WER (1.4%) を達成した。
論文参考訳（メタデータ） (2024-06-14T14:36:54Z)
Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文参考訳（メタデータ） (2024-03-14T01:16:32Z)
VlogQA: Task, Dataset, and Baseline Models for Vietnamese Spoken-Based Machine Reading Comprehension [1.3942150186842373]
本稿では,機械読解作業のためのベトナム語音声コーパスの開発過程について述べる。ベトナムの既存のMRCコーポラは主にウィキペディアの記事、オンライン新聞、教科書などの公式文書に焦点を当てている。対照的に、VlogQAはYouTubeからソースされた1,230の文書に基づいて10,076の質問応答ペアで構成されている。
論文参考訳（メタデータ） (2024-02-05T00:54:40Z)
ViSoBERT: A Pre-Trained Language Model for Vietnamese Social Media Text Processing [1.1765925931670576]
ベトナムのソーシャルメディアテキストであるViSoBERTに対して,最初のモノリンガル事前学習言語モデルを提案する。我々の実験では、ViSoBERTはパラメータがはるかに少ないため、ベトナムのソーシャルメディアタスクにおける過去の最先端モデルを上回ることが示されている。
論文参考訳（メタデータ） (2023-10-17T11:34:50Z)
Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization [61.60501633397704]
本稿では,最近提案されたWebスケール音声モデルのWhisperの創発的能力について検討する。タスク固有のプロンプトを、別の大規模モデルを活用するか、あるいはデフォルトのプロンプトで特別なトークンを操作するだけで設計する。実験の結果,提案手法は3つのゼロショットタスクで10%から45%向上し,SotAの教師付きモデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-05-18T16:32:58Z)
MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation [44.53711548080296]
我々は,多言語音声視覚コーパスであるMuAViCを紹介した。完全に書き起こされ、6つの英訳と6つの英訳の方向をカバーしている。この結果から,MuAViCは音声認識・翻訳モデルの構築に有効であることが示唆された。
論文参考訳（メタデータ） (2023-03-01T16:31:01Z)
A High-Quality and Large-Scale Dataset for English-Vietnamese Speech Translation [17.35935715147861]
本稿では,508時間音声を用いた英語-ベトナム語音声翻訳のための高品質で大規模なベンチマークデータセットを提案する。我々の知る限りでは、これは初めて大規模な英語-ベトナム語音声翻訳研究である。
論文参考訳（メタデータ） (2022-08-08T16:11:26Z)
Automatic Speech Recognition Datasets in Cantonese Language: A Survey and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。 MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文参考訳（メタデータ） (2022-01-07T12:09:15Z)
Phoneme Recognition through Fine Tuning of Phonetic Representations: a Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文参考訳（メタデータ） (2021-04-04T15:07:55Z)
PhoNLP: A joint multi-task learning model for Vietnamese part-of-speech tagging, named entity recognition and dependency parsing [8.558842542068778]
PhoNLPと名づけられた最初のマルチタスク学習モデルを提案し,ベトナムの音声合成(POS)タグ付け,エンティティ認識(NER)と依存性解析を行った。ベトナムのベンチマークデータセットの実験は、PhoNLPが最先端の結果を生成することを示している。
論文参考訳（メタデータ） (2021-01-05T12:13:09Z)
PhoBERT: Pre-trained language models for Vietnamese [11.685916685552982]
PhoBERTはベトナムで事前訓練された最初の大規模モノリンガル言語モデルである。実験結果から, PhoBERT は最新の学習済み多言語モデル XLM-R よりも一貫して優れていた。我々はPhoBERTをリリースし、ベトナムのNLPの今後の研究と下流の応用を促進する。
論文参考訳（メタデータ） (2020-03-02T10:21:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。