論文の概要: Design of a novel Korean learning application for efficient
pronunciation correction
- arxiv url: http://arxiv.org/abs/2205.02001v1
- Date: Wed, 4 May 2022 11:19:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 19:58:51.603804
- Title: Design of a novel Korean learning application for efficient
pronunciation correction
- Title(参考訳): 効率的な発音補正のための韓国語学習アプリケーションの設計
- Authors: Minjong Cheon, Minseon Kim, Hanseon Joo
- Abstract要約: 提案システムでは,音声認識,音声テキスト,音声波形の3つが重要なシステムである。
すると、ソフトウェアはユーザのフレーズと回答を表示し、赤で強調された要素を誤って表示する。
- 参考スコア(独自算出の注目度): 2.008880264104061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Korean wave, which denotes the global popularity of South Korea's
cultural economy, contributes to the increasing demand for the Korean language.
However, as there does not exist any application for foreigners to learn
Korean, this paper suggested a design of a novel Korean learning application.
Speech recognition, speech-to-text, and speech-to-waveform are the three key
systems in the proposed system. The Google API and the librosa library will
transform the user's voice into a sentence and MFCC. The software will then
display the user's phrase and answer, with mispronounced elements highlighted
in red, allowing users to more easily recognize the incorrect parts of their
pronunciation. Furthermore, the Siamese network might utilize those translated
spectrograms to provide a similarity score, which could subsequently be used to
offer feedback to the user. Despite the fact that we were unable to collect
sufficient foreigner data for this research, it is notable that we presented a
novel Korean pronunciation correction method for foreigners.
- Abstract(参考訳): 韓国の文化経済の世界的な人気を示す韓国の波は、韓国語の需要の増加に寄与している。
しかし、外国人が韓国語を学ぶための申請は存在しないため、本論文は韓国語の新しい学習アプリケーションの設計を提案する。
提案システムでは,音声認識,音声テキスト,音声波形の3つが重要なシステムである。
Google APIとリブロサライブラリは、ユーザの声を文とMFCCに変換する。
ソフトウェアはユーザのフレーズと答えを表示し、誤発音の要素を赤でハイライトすることで、発音の誤りをより容易に認識できるようにする。
さらに、シャムズネットワークは、これらの変換されたスペクトログラムを使用して類似度スコアを提供し、その後ユーザにフィードバックを提供することができる。
この研究で十分な外国人データを収集できなかったにもかかわらず、外国人に新しい韓国語発音補正法を提示したことは注目に値する。
関連論文リスト
- RedWhale: An Adapted Korean LLM Through Efficient Continual Pretraining [0.0]
韓国語処理に特化したモデルであるRedWhaleを紹介する。
RedWhaleは、韓国の包括的コーパス前処理パイプラインを含む効率的な継続事前訓練アプローチを用いて開発されている。
実験の結果、RedWhaleは韓国のNLPベンチマークで他の主要なモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T02:49:41Z) - Does Incomplete Syntax Influence Korean Language Model? Focusing on Word Order and Case Markers [7.275938266030414]
語順やケースマーカーなどの構文要素は自然言語処理において基本的なものである。
本研究は,韓国語モデルがこの柔軟性を正確に捉えることができるかどうかを考察する。
論文 参考訳(メタデータ) (2024-07-12T11:33:41Z) - Lip Reading for Low-resource Languages by Learning and Combining General
Speech Knowledge and Language-specific Knowledge [57.38948190611797]
本稿では,特に低リソース言語を対象とした新しい唇読解フレームワークを提案する。
低リソース言語は、そのモデルを訓練するのに十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
論文 参考訳(メタデータ) (2023-08-18T05:19:03Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Korean Tokenization for Beam Search Rescoring in Speech Recognition [13.718396242036818]
韓国のASRに使用されるニューラルネットワークを用いたLMのための韓国のトークン化手法を提案する。
韓国語音節に後続子音がない場合に特別なトークンSkipTCを挿入する新しいトークン化手法を提案する。
実験の結果,SkipTCのない同じLMモデルと比較して,提案手法は単語誤り率を低くすることがわかった。
論文 参考訳(メタデータ) (2022-02-22T11:25:01Z) - Learning How to Translate North Korean through South Korean [24.38451366384134]
韓国語と北朝鮮語はどちらも韓国語である。
既存の韓国語のNLPシステムは北朝鮮の入力を処理できない。
我々は、同等のコーパスを使用して、北朝鮮のNMTモデルのデータを作成する。
人間のアノテーションを使わずに、北朝鮮のバイリンガルデータによって訓練されたモデルが、北朝鮮の翻訳精度を大幅に向上させることができることを検証した。
論文 参考訳(メタデータ) (2022-01-27T01:21:29Z) - K-Wav2vec 2.0: Automatic Speech Recognition based on Joint Decoding of
Graphemes and Syllables [2.0813318162800707]
K-Wav2Vec 2.0は、韓国の音声認識用に設計されたWav2vec 2.0の改良版である。
微調整において,韓国の文字構造を反映したマルチタスク階層アーキテクチャを提案する。
事前学習では,韓国のデータセット上で,英語のWav2vec 2.0をさらに事前学習することで,事前学習モデルの言語間移動を試みた。
論文 参考訳(メタデータ) (2021-10-11T11:53:12Z) - Non-autoregressive Mandarin-English Code-switching Speech Recognition
with Pinyin Mask-CTC and Word Embedding Regularization [61.749126838659315]
マンダリン・イングリッシュ・コード・スイッチング (CS) は東アジアや東南アジアでよく使われている。
近年の非自己回帰(NAR)ASRモデルは、自己回帰(AR)モデルにおける左から右へのビームデコードの必要性を排除している。
エンコーダの出力目標をpinyinに変更してエンコーダトレーニングを高速化し,文脈情報学習のためのpinyin-to-mandarinデコーダを提案する。
論文 参考訳(メタデータ) (2021-04-06T03:01:09Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - Synchronous Bidirectional Learning for Multilingual Lip Reading [99.14744013265594]
すべての言語の唇の動きは、人間の器官の共通構造によって類似したパターンを共有している。
音素はアルファベットよりも唇の動きと密接に関連している。
新しいSBLブロックが提案され、各言語の規則を補充的に学習する。
論文 参考訳(メタデータ) (2020-05-08T04:19:57Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。