論文の概要: Flowchase: a Mobile Application for Pronunciation Training
- arxiv url: http://arxiv.org/abs/2307.02051v1
- Date: Wed, 5 Jul 2023 06:32:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 14:52:49.976297
- Title: Flowchase: a Mobile Application for Pronunciation Training
- Title(参考訳): Flowchase: 発音訓練のためのモバイルアプリケーション
- Authors: No\'e Tits, Zo\'e Broisson
- Abstract要約: Flowchaseは音声のセグメンショナル特徴と超セグメンショナル特徴をセグメンテーションし分析することのできる音声技術に接続されている。
音声処理パイプラインは、発話に対応する言語情報を受信し、音声サンプルとともに分析する。
音声表現学習に基づく機械学習モデルの組み合わせにより、強制アライメントと音声認識を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we present a solution for providing personalized and instant
feedback to English learners through a mobile application, called Flowchase,
that is connected to a speech technology able to segment and analyze speech
segmental and supra-segmental features. The speech processing pipeline receives
linguistic information corresponding to an utterance to analyze along with a
speech sample. After validation of the speech sample, a joint forced-alignment
and phonetic recognition is performed thanks to a combination of machine
learning models based on speech representation learning that provides necessary
information for designing a feedback on a series of segmental and
supra-segmental pronunciation aspects.
- Abstract(参考訳): 本稿では,音声セグメント・サブセグメンショナル・サブセグメンタルな特徴を識別・分析可能な音声技術に接続された,Flowchaseと呼ばれるモバイルアプリケーションを通じて,英語学習者にパーソナライズされた即時フィードバックを提供するソリューションを提案する。
音声処理パイプラインは、発話に対応する言語情報を受け取り、音声サンプルと共に分析する。
音声サンプルの検証後、音声表現学習に基づく機械学習モデルの組み合わせにより、一連のセグメント・サブセグメンショナル・サブセグメンタルな発音面に基づいてフィードバックを設計するために必要な情報を提供することにより、共同強制調整と音声認識を行う。
関連論文リスト
- LAST: Language Model Aware Speech Tokenization [24.185165710384997]
本稿では,事前学習されたテキストLMの目的を活かして,音声トークン化者の訓練を行う新しい手法を提案する。
本研究の目的は,事前学習した音声モデルから,より優れたクラスタリングを実現するための新機能空間への変換である。
論文 参考訳(メタデータ) (2024-09-05T16:57:39Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - Generative Adversarial Training for Text-to-Speech Synthesis Based on
Raw Phonetic Input and Explicit Prosody Modelling [0.36868085124383626]
生成的対角学習を用いたエンドツーエンド音声合成システムについて述べる。
音素・音素変換のためのVocoderを明示的な音韻・ピッチ・持続時間モデルを用いて訓練する。
論文 参考訳(メタデータ) (2023-10-14T18:15:51Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Direct Speech-to-speech Translation without Textual Annotation using
Bottleneck Features [13.44542301438426]
テキストの注釈やコンテンツ情報なしに訓練できる音声音声合成モデルを提案する。
Mandarin-Cantonese音声翻訳実験は,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-12-12T10:03:10Z) - Unified Speech-Text Pre-training for Speech Translation and Recognition [113.31415771943162]
音声認識のためのエンコーダ・デコーダ・モデリング・フレームワークにおいて,音声とテキストを協調的に事前学習する手法について述べる。
提案手法は,4つの自己教師付きサブタスクを組み込んだクロスモーダル学習手法である。
MuST-C音声翻訳データセットの最先端よりも1.7から2.3BLEUの改善が達成されている。
論文 参考訳(メタデータ) (2022-04-11T20:59:51Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Phoneme-aware and Channel-wise Attentive Learning for Text
DependentSpeaker Verification [21.826585075806573]
本稿では,テキスト依存型話者検証(SV)のための音素認識型マルチタスク学習ネットワークとチャネルワイド学習戦略を提案する。
提案システムはテキスト依存型SVの優れた結果を得る。
論文 参考訳(メタデータ) (2021-06-25T09:11:18Z) - Towards Automatic Speech to Sign Language Generation [35.22004819666906]
音声セグメントからシグナのポーズを生成するために訓練された多言語トランスフォーマーネットワークを提案する。
我々のモデルは、エンドツーエンドで連続的なサインポーズ列を生成することを学習する。
論文 参考訳(メタデータ) (2021-06-24T06:44:19Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。