論文の概要: DDSupport: Language Learning Support System that Displays Differences
and Distances from Model Speech
- arxiv url: http://arxiv.org/abs/2212.04930v1
- Date: Thu, 8 Dec 2022 05:49:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 16:23:33.130309
- Title: DDSupport: Language Learning Support System that Displays Differences
and Distances from Model Speech
- Title(参考訳): DDSupport:モデル音声との違いと距離を表示する言語学習支援システム
- Authors: Kazuki Kawamura, Jun Rekimoto
- Abstract要約: 音声のスコアを計算し,初心者による誤認識を検出する新しい言語学習支援システムを提案する。
提案システムは,深層学習に基づく音声処理を用いて,学習者の音声の発音スコアと,学習者とモデルの発音群との差/距離を表示する。
- 参考スコア(独自算出の注目度): 16.82591185507251
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: When beginners learn to speak a non-native language, it is difficult for them
to judge for themselves whether they are speaking well. Therefore,
computer-assisted pronunciation training systems are used to detect learner
mispronunciations. These systems typically compare the user's speech with that
of a specific native speaker as a model in units of rhythm, phonemes, or words
and calculate the differences. However, they require extensive speech data with
detailed annotations or can only compare with one specific native speaker. To
overcome these problems, we propose a new language learning support system that
calculates speech scores and detects mispronunciations by beginners based on a
small amount of unannotated speech data without comparison to a specific
person. The proposed system uses deep learning--based speech processing to
display the pronunciation score of the learner's speech and the
difference/distance between the learner's and a group of models' pronunciation
in an intuitively visual manner. Learners can gradually improve their
pronunciation by eliminating differences and shortening the distance from the
model until they become sufficiently proficient. Furthermore, since the
pronunciation score and difference/distance are not calculated compared to
specific sentences of a particular model, users are free to study the sentences
they wish to study. We also built an application to help non-native speakers
learn English and confirmed that it can improve users' speech intelligibility.
- Abstract(参考訳): 初心者が非ネイティブ言語を話し始めると、自分たちが上手に話しているかどうかを判断することは困難である。
そのため、学習者の誤用をコンピュータ支援の発音訓練システムを用いて検出する。
これらのシステムは通常、ユーザの発話と特定のネイティブ話者の発話をリズム、音素、単語の単位のモデルとして比較し、違いを計算する。
しかし、詳細なアノテーションを持つ広範な音声データを必要とするか、特定のネイティブスピーカーとしか比較できない。
そこで本稿では,言語学習支援システムを提案する。音声のスコアを計算し,初心者による誤認識を,特定の人物と比較することなく,少量の無注釈音声データに基づいて検出する。
本システムでは,ディープラーニングを用いた音声処理により,学習者の発話の発音スコアと,学習者とモデルの発音グループとの差・距離を直感的に視覚的に表示する。
学習者は、違いを取り除き、十分に熟達するまでモデルからの距離を短くすることで、徐々に発音を改善することができる。
さらに、特定のモデルの特定の文と比較して発音スコアと差/距離が計算されないため、学習したい文を自由に学習することができる。
また,非母国語話者の英語学習を支援するアプリケーションを構築し,ユーザの音声理解性を向上させることができることを確認した。
関連論文リスト
- Data-Driven Mispronunciation Pattern Discovery for Robust Speech Recognition [1.0323063834827417]
誤発音パターンを自動的に検出する2つのデータ駆動手法を提案する。
非ネイティブな電話機をアテンションマップを使ってネイティブな電話機と整列させることで、ネイティブな英語データセットにおける音声認識の5.7%の改善を実現した。
論文 参考訳(メタデータ) (2025-02-01T22:41:43Z) - Improving Spoken Language Modeling with Phoneme Classification: A Simple Fine-tuning Approach [14.5696754689252]
音声言語モデリングの最近の進歩は、音声から直接言語を学ぶことが可能であることを示している。
音素分類に基づく微調整音声表現モデルにより、より文脈不変な表現が得られることを示す。
論文 参考訳(メタデータ) (2024-09-16T10:29:15Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - Analysis of French Phonetic Idiosyncrasies for Accent Recognition [0.8602553195689513]
発音の違い、アクセントと音声のイントネーションは、音声認識の最も一般的な問題の1つである。
従来の機械学習技術と畳み込みニューラルネットワークを使い、古典的手法ではこの問題を解決するのに十分な効率が得られていないことを示す。
本稿では,フランス語のアクセントに焦点をあてるとともに,そのスペクトルに対するフランス語の慣用音の影響を理解することによって,その限界を識別する。
論文 参考訳(メタデータ) (2021-10-18T10:50:50Z) - Mandarin-English Code-switching Speech Recognition with Self-supervised
Speech Representation Models [55.82292352607321]
コードスイッチング(英: Code-switching, CS)は、複数の言語が文内で使用される日常会話において一般的である。
本稿では、最近成功した自己教師付き学習(SSL)手法を用いて、CSを使わずに多くのラベルなし音声データを活用する。
論文 参考訳(メタデータ) (2021-10-07T14:43:35Z) - English Accent Accuracy Analysis in a State-of-the-Art Automatic Speech
Recognition System [3.4888132404740797]
様々なラベル付き英語アクセントを持つコーパスからの未認識データを用いて,最先端の自動音声認識モデルを評価する。
本研究は,アクセントの多様性に関して,訓練コーパスで最も普及しているアクセントに有利な正確性バイアスが存在することを示す。
論文 参考訳(メタデータ) (2021-05-09T08:24:33Z) - Cross-lingual hate speech detection based on multilingual
domain-specific word embeddings [4.769747792846004]
トランスファーラーニングの視点から多言語のヘイトスピーチ検出の課題に取り組むことを提案する。
私たちの目標は、ある特定の言語の知識が他の言語の分類に使用できるかどうかを判断することです。
単純かつ特定された多言語ヘイト表現を用いることで分類結果が向上することを示す。
論文 参考訳(メタデータ) (2021-04-30T02:24:50Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。