論文の概要: K-Wav2vec 2.0: Automatic Speech Recognition based on Joint Decoding of
Graphemes and Syllables
- arxiv url: http://arxiv.org/abs/2110.05172v1
- Date: Mon, 11 Oct 2021 11:53:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 17:39:58.050679
- Title: K-Wav2vec 2.0: Automatic Speech Recognition based on Joint Decoding of
Graphemes and Syllables
- Title(参考訳): K-Wav2vec 2.0:GraphemesとSyllablesの結合復号に基づく音声認識
- Authors: Jounghee Kim, Pilsung Kang
- Abstract要約: K-Wav2Vec 2.0は、韓国の音声認識用に設計されたWav2vec 2.0の改良版である。
微調整において,韓国の文字構造を反映したマルチタスク階層アーキテクチャを提案する。
事前学習では,韓国のデータセット上で,英語のWav2vec 2.0をさらに事前学習することで,事前学習モデルの言語間移動を試みた。
- 参考スコア(独自算出の注目度): 2.0813318162800707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wav2vec 2.0 is an end-to-end framework of self-supervised learning for speech
representation that is successful in automatic speech recognition (ASR), but
most of the work on the topic has been developed with a single language:
English. Therefore, it is unclear whether the self-supervised framework is
effective in recognizing other languages with different writing systems, such
as Korean which uses the Hangul having a unique writing system. In this paper,
we present K-Wav2Vec 2.0, which is a modified version of Wav2vec 2.0 designed
for Korean automatic speech recognition by exploring and optimizing various
factors of the original Wav2vec 2.0. In fine-tuning, we propose a multi-task
hierarchical architecture to reflect the Korean writing structure. Moreover, a
joint decoder is applied to alleviate the problem of words existing outside of
the vocabulary. In pre-training, we attempted the cross-lingual transfer of the
pre-trained model by further pre-training the English Wav2vec 2.0 on a Korean
dataset, considering limited resources. Our experimental results demonstrate
that the proposed method yields the best performance on both Korean ASR
datasets: Ksponspeech (a large-scale Korean speech corpus) and Clovacall (a
call-based dialog corpus). Further pre-training is also effective in language
adaptation, leading to large improvements without additional data.
- Abstract(参考訳): wav2vec 2.0は、音声表現のための自己教師あり学習のエンドツーエンドフレームワークであり、自動音声認識(asr)に成功している。
したがって、ハングル独自の文字体系を持つ韓国語など、異なる表記体系を持つ他の言語を認識するのに自己教師付きフレームワークが有効であるかどうかは不明である。
本稿では,韓国自動音声認識用に設計されたwav2vec 2.0の改良版であるk-wav2vec 2.0を提案する。
本稿では,韓国の文字構造を反映するマルチタスク階層アーキテクチャを提案する。
また、語彙の外に存在する単語の問題を緩和するために共用デコーダを適用する。
事前学習では,韓国語のデータセット上で英語のwav2vec 2.0を事前学習することで,事前学習モデルの言語間伝達を試みた。
提案手法は,韓国asrデータセットにおいて,ksponspeech(大規模韓国音声コーパス)とclovacall(コールベースダイアログコーパス)の双方で最高の性能を発揮することを示す。
さらに事前学習は言語適応にも有効であり、追加データなしで大幅に改善される。
関連論文リスト
- GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement [36.29371629234269]
GigaSpeech 2は大規模多言語音声認識コーパスである。
タイ語、インドネシア語、ベトナム語を含む約3万時間の音声が自動で書き起こされる。
論文 参考訳(メタデータ) (2024-06-17T13:44:20Z) - AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation [58.72068260933836]
システムの入力と出力はマルチモーダル(音声と視覚)である
私たちは、自分の主要言語を利用することで、仮想ミーティングで世界中の個人とリアルタイムな会話を行うことができます。
音声モダリティのみを翻訳する音声音声合成(A2A)とは対照的に,提案したAV2AVは音声・視覚音声を直接翻訳する。
論文 参考訳(メタデータ) (2023-12-05T05:36:44Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages [49.6922490267701]
我々は,自己教師型音声エンコーダのコード切替能力を評価するために,ゼロリソースコード切替音声ベンチマークを導入した。
本稿では,音声エンコーダのコードスイッチング能力を評価するために,離散単位に基づく言語モデリングのベースラインシステムを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:58:11Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Magic dust for cross-lingual adaptation of monolingual wav2vec-2.0 [7.378368959253632]
モノリンガルなwav2vec-2.0は、いくつかの言語でASR学習者として優れていることを示す。
この研究の重要な発見は、適応されたモノリンガルwav2vec-2.0が、トップラインのマルチリンガルXLSRモデルと同様のパフォーマンスを達成することである。
論文 参考訳(メタデータ) (2021-10-07T15:29:22Z) - Applying Wav2vec2.0 to Speech Recognition in Various Low-resource
Languages [16.001329145018687]
音声領域では、wav2vec2.0は、その強力な表現能力とLibrispeechコーパス上で超低リソース音声認識の実現性を示す。
しかし、wav2vec2.0は英語以外の実際の話シナリオや言語については検討されていない。
様々な言語の低リソース音声認識タスクを解決するために、事前学習モデルを適用します。
論文 参考訳(メタデータ) (2020-12-22T15:59:44Z) - Exploring wav2vec 2.0 on speaker verification and language
identification [9.047596226273495]
Wav2vec 2.0は、音声認識学習のための自己監視フレームワークである。
本稿では,wav2vec 2.0を話者照合と言語識別に拡張する。
話者検証のために、VoxCeleb1データセットで3.61%の新しい最新結果であるEqual Error Rate (EER)を取得します。
言語識別のために、1秒条件で12.02%のEERと、AP17-OLRデータセットの全長条件で3.47%のEERを得る。
論文 参考訳(メタデータ) (2020-12-11T08:22:23Z) - KoSpeech: Open-Source Toolkit for End-to-End Korean Speech Recognition [1.7955614278088239]
KoSpeechは、ディープラーニングライブラリPyTorchをベースにした、エンドツーエンドの韓国自動音声認識(ASR)ツールキットである。
KsponSpeechコーパスの事前処理手法とベンチマークのベースラインモデルを提案する。
KsponSpeech corpusでは音響モデルのみで10.31%の文字誤り率(CER)を達成した。
論文 参考訳(メタデータ) (2020-09-07T13:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。