論文の概要: Speech Representations and Phoneme Classification for Preserving the
Endangered Language of Ladin
- arxiv url: http://arxiv.org/abs/2108.12531v1
- Date: Fri, 27 Aug 2021 23:51:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 14:53:31.339426
- Title: Speech Representations and Phoneme Classification for Preserving the
Endangered Language of Ladin
- Title(参考訳): ラディンの絶滅危惧言語保存のための音声表現と音素分類
- Authors: Zane Durante, Leena Mathur, Eric Ye, Sichong Zhao, Tejas Ramdas,
Khalil Iskarous
- Abstract要約: 世界7000の言語の大半は、今世紀中に絶滅すると予測されている。
本稿では、ラディンの32音素を分類するための音声表現と機械学習モデルの最初の解析について述べる。
- 参考スコア(独自算出の注目度): 0.7829352305480285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A vast majority of the world's 7,000 spoken languages are predicted to become
extinct within this century, including the endangered language of Ladin from
the Italian Alps. Linguists who work to preserve a language's phonetic and
phonological structure can spend hours transcribing each minute of speech from
native speakers. To address this problem in the context of Ladin, our paper
presents the first analysis of speech representations and machine learning
models for classifying 32 phonemes of Ladin. We experimented with a novel
dataset of the Fascian dialect of Ladin, collected from native speakers in
Italy. We created frame-level and segment-level speech feature extraction
approaches and conducted extensive experiments with 8 different classifiers
trained on 9 different speech representations. Our speech representations
ranged from traditional features (MFCC, LPC) to features learned with deep
neural network models (autoencoders, LSTM autoencoders, and WaveNet). Our
highest-performing classifier, trained on MFCC representations of speech
signals, achieved an 86% average accuracy across all Ladin phonemes. We also
obtained average accuracies above 77% for all Ladin phoneme subgroups examined.
Our findings contribute insights for learning discriminative Ladin phoneme
representations and demonstrate the potential for leveraging machine learning
and speech signal processing to preserve Ladin and other endangered languages.
- Abstract(参考訳): 世界の7000の言語の大部分は、イタリア・アルプスからの絶滅危惧言語であるラディンを含む、この世紀中に絶滅すると予測されている。
言語の音韻構造と音韻構造を保存するために働く言語学者は、母語話者から毎分音声の書き起こしに何時間も費やすことができる。
本稿では,この問題を解決するために,32種類のラディン音素を分類するための音声表現と機械学習モデルについて,最初の分析を行う。
我々はイタリアの母語話者から収集されたファシアン方言ラディンの新たなデータセットを実験した。
フレームレベルおよびセグメントレベルの音声特徴抽出手法を作成し,9つの異なる音声表現を訓練した8つの分類器を用いて広範囲な実験を行った。
私たちの音声表現は、従来の特徴(MFCC、LPC)から、ディープニューラルネットワークモデル(オートエンコーダ、LSTMオートエンコーダ、WaveNet)で学んだ特徴まで様々でした。
音声信号の MFCC 表現に基づいて訓練した最高性能分類器は,すべてのラディン音素に対して平均86%の精度を達成した。
また,ラディン音素部分群では平均77%以上の確率を示した。
本研究は,識別的ラディン音素表現の学習に寄与し,機械学習と音声信号処理を活用してラディンや他の絶滅危惧言語を保存する可能性を示す。
関連論文リスト
- Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - SALMONN: Towards Generic Hearing Abilities for Large Language Models [24.73033723114979]
音声音声言語音楽オープンニューラルネットワークSALMONNを提案する。
事前訓練されたテキストベースの大規模言語モデル(LLM)と音声および音声エンコーダを単一のマルチモーダルモデルに統合することによって構築される。
これは、そのタイプの最初のモデルであり、汎用的な聴覚能力を持つAIへのステップと見なすことができる。
論文 参考訳(メタデータ) (2023-10-20T05:41:57Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - From `Snippet-lects' to Doculects and Dialects: Leveraging Neural
Representations of Speech for Placing Audio Signals in a Language Landscape [3.96673286245683]
XLSR-53は音声の多言語モデルであり、音声からベクトル表現を構築する。
我々は、最大プーリングを使用して、神経表現を「スニペットレクト」から「ドキュレクト」に集約する。
11のコーパス間の類似度測定は、同一言語の方言として知られているものの間に最も近い関係をもたらす。
論文 参考訳(メタデータ) (2023-05-29T20:37:06Z) - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.55131711064935]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。
具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。
Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文 参考訳(メタデータ) (2023-01-05T15:37:15Z) - Language-Agnostic Meta-Learning for Low-Resource Text-to-Speech with
Articulatory Features [30.37026279162593]
本研究では,言語間で保持される音素表現を学習するために,音素の同一性から導かれる埋め込みではなく,調音ベクトルから導出される埋め込みを用いる。
これにより、これまで見られなかった話者が話していた、30分間のデータで高品質なテキスト音声モデルを微調整できる。
論文 参考訳(メタデータ) (2022-03-07T07:58:01Z) - CLSRIL-23: Cross Lingual Speech Representations for Indic Languages [0.0]
CLSRIL-23は、23のIndic言語にまたがる生音声から言語間の音声表現を学習する自己教師付き学習ベースモデルである。
wav2vec 2.0の上に構築され、マスク付き潜在音声表現よりも対照的なタスクを訓練することで解決される。
単言語と多言語による事前学習の効果を比較するために,事前学習における言語障害の比較を行った。
論文 参考訳(メタデータ) (2021-07-15T15:42:43Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - CSTNet: Contrastive Speech Translation Network for Self-Supervised
Speech Representation Learning [11.552745999302905]
7000の言語のうち、半数以上が絶滅の危機にさらされている。
音声に対応するテキスト翻訳は比較的容易である。
音声から言語表現を抽出できる畳み込みニューラルネットワークオーディオエンコーダを構築する。
論文 参考訳(メタデータ) (2020-06-04T12:21:48Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。