論文の概要: German Phoneme Recognition with Text-to-Phoneme Data Augmentation
- arxiv url: http://arxiv.org/abs/2211.13776v1
- Date: Thu, 24 Nov 2022 19:32:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 16:09:19.821847
- Title: German Phoneme Recognition with Text-to-Phoneme Data Augmentation
- Title(参考訳): テキスト-音素データ拡張によるドイツ語音素認識
- Authors: Dojun Park and Seohyun Park
- Abstract要約: 本研究では,ドイツ語の音素認識モデルにおいて,最も頻度の高いn音素ビッグラムを基本語彙に加えることの効果について検討した。
その結果,母音30モデルとconst20モデルではBLEUスコアが1点以上増加し,合計30モデルではBLEUスコアが20点以上低下した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we experimented to examine the effect of adding the most
frequent n phoneme bigrams to the basic vocabulary on the German phoneme
recognition model using the text-to-phoneme data augmentation strategy. As a
result, compared to the baseline model, the vowel30 model and the const20 model
showed an increased BLEU score of more than 1 point, and the total30 model
showed a significant decrease in the BLEU score of more than 20 points, showing
that the phoneme bigrams could have a positive or negative effect on the model
performance. In addition, we identified the types of errors that the models
repeatedly showed through error analysis.
- Abstract(参考訳): 本研究では,テキスト対音素データ拡張戦略を用いたドイツ語音素認識モデルにおいて,基本語彙に最も頻度の高いn音素ビッグラムを付加する効果について検討した。
その結果、ベースラインモデルと比較して、母音30モデルとconst20モデルではBLEUスコアが1点以上増加し、トータル30モデルではBLEUスコアが20点以上減少し、音素ビッグラムがモデル性能に正あるいは負の影響を及ぼす可能性が示唆された。
さらに,モデルが繰り返し示す誤りの種類を誤差解析によって同定した。
関連論文リスト
- Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Preserving Phonemic Distinctions for Ordinal Regression: A Novel Loss
Function for Automatic Pronunciation Assessment [10.844822448167937]
回帰に基づくAPAモデルの学習のための音素コントラストオーディショナル(PCO)損失を提案する。
具体的には、MSE損失に音素識別正則化器を導入し、異なる音素カテゴリの特徴表現を遠方へ誘導する。
speechocean762ベンチマークデータセットで行った広範な実験結果から,本モデルの有効性と有効性が示唆された。
論文 参考訳(メタデータ) (2023-10-03T07:05:37Z) - Joint Adaptive Representations for Image-Language Learning [59.40890927221377]
画像言語学習のためのレシピを提案し、より大きくて高価なものよりも優れたモデルを作成し、しばしば桁違いに大きなデータセットで訓練する。
我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。
たった4000万のトレーニング例と39のGFLOPで、私たちの軽量モデルは、2~20倍以上のFLOPの最先端モデルで、さらに大きなデータセットを使用して、1B近くのトレーニング例で何倍もパフォーマンスを上げています。
論文 参考訳(メタデータ) (2023-05-31T15:02:02Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - SpeechBlender: Speech Augmentation Framework for Mispronunciation Data
Generation [11.91301106502376]
SpeechBlenderは、誤発音エラーを生成するためのきめ細かいデータ拡張パイプラインである。
提案手法は, ASR 依存型誤発音検出モデルにおいて, Speechocean762 を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-11-02T07:13:30Z) - Improving Non-native Word-level Pronunciation Scoring with Phone-level
Mixup Data Augmentation and Multi-source Information [15.72173704767198]
そこで本稿では, 単語レベルの発音性能を向上させるために, 簡易で効果的なデータ拡張手法である電話レベルのミキサアップを提案する。
我々は、マルチソース情報(例えば、MFCCとディープ特徴)を使用して、スコアリングシステムの性能をさらに向上する。
論文 参考訳(メタデータ) (2022-03-01T05:29:57Z) - Pronoun-Targeted Fine-tuning for NMT with Hybrid Losses [6.596002578395152]
我々は,訓練された機械翻訳モデルの微調整に使用する条件付き生成-識別ハイブリッド損失のクラスを導入する。
我々は、追加データを用いることなく、文レベルと文脈モデルの両方のモデル性能を改善する。
文レベルモデルではWMT14とIWSLT13の両テストセットで0.5BLEUの改善が見られた。
我々の文脈モデルは WMT14 De-En テストセットにおいて 31.81 から 32 BLEU に改善され、IWSLT13 De-En では 32.10 から 33.13 に改善された。
論文 参考訳(メタデータ) (2020-10-15T10:11:40Z) - Visually Grounded Compound PCFGs [65.04669567781634]
言語理解のための視覚的基盤の爆発は、最近多くの注目を集めている。
本研究では,視覚的な文法誘導について検討し,未ラベルテキストとその視覚的キャプションから選挙区を学習する。
論文 参考訳(メタデータ) (2020-09-25T19:07:00Z) - Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。
11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。
我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文 参考訳(メタデータ) (2020-02-26T21:28:57Z) - Phoneme Boundary Detection using Learnable Segmental Features [31.203969460341817]
音素境界検出は様々な音声処理アプリケーションにおいて重要な第一歩となる。
本稿では,音素境界検出タスクのセグメント表現を学習するために,パラメータ化された構造的損失関数と結合したニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-11T14:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。