論文の概要: Mining Large-Scale Low-Resource Pronunciation Data From Wikipedia
- arxiv url: http://arxiv.org/abs/2101.11575v1
- Date: Wed, 27 Jan 2021 18:04:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 04:45:22.937544
- Title: Mining Large-Scale Low-Resource Pronunciation Data From Wikipedia
- Title(参考訳): Wikipediaによる大規模低リソース発音データのマイニング
- Authors: Tania Chakraborty, Manasa Prasad, Theresa Breiner, Sandy Ritchie, Daan
van Esch
- Abstract要約: 我々は、ウィキペディア内のゆるく構造化されたテーブルから819言語で設定された発音データセットをマイニングするために構築したシステムについて報告する。
データには音素在庫が含まれ、63の低リソース言語にはG2Pマッピングも含まれている。
私たちはウィキペディアの情報を構造化された機械可読のTSVフォーマットに変換し、その結果のデータセットを公開して、さらに改善し、低リソース言語を含む様々なアプリケーションで使用できるようにします。
- 参考スコア(独自算出の注目度): 4.876144341163138
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Pronunciation modeling is a key task for building speech technology in new
languages, and while solid grapheme-to-phoneme (G2P) mapping systems exist,
language coverage can stand to be improved. The information needed to build G2P
models for many more languages can easily be found on Wikipedia, but
unfortunately, it is stored in disparate formats. We report on a system we
built to mine a pronunciation data set in 819 languages from loosely structured
tables within Wikipedia. The data includes phoneme inventories, and for 63
low-resource languages, also includes the grapheme-to-phoneme (G2P) mapping. 54
of these languages do not have easily findable G2P mappings online otherwise.
We turned the information from Wikipedia into a structured, machine-readable
TSV format, and make the resulting data set publicly available so it can be
improved further and used in a variety of applications involving low-resource
languages.
- Abstract(参考訳): 発音モデリングは新しい言語で音声技術を構築する上で重要な課題であり、G2Pマッピングシステムは存在するが、言語カバレッジは改善される。
G2Pモデルを構築するために必要な情報はウィキペディアで簡単に確認できるが、残念ながら異なるフォーマットで保存されている。
我々は819言語の発音データセットをWikipedia内の緩やかな構造化テーブルからマイニングするために構築したシステムについて報告した。
データには音素在庫が含まれ、63の低リソース言語にはG2Pマッピングも含まれている。
これらの言語のうち54は、オンラインで簡単に見つけられるG2Pマッピングを持っていない。
私たちはウィキペディアの情報を構造化された機械可読のTSVフォーマットに変換し、その結果のデータセットを公開して、低リソース言語を含む様々なアプリケーションでさらに改善し使用できるようにしました。
関連論文リスト
- A two-stage transliteration approach to improve performance of a multilingual ASR [1.9511556030544333]
本稿では,言語に依存しないエンドツーエンドモデルを構築するためのアプローチを提案する。
我々は2つのIndic言語に対するエンドツーエンドの多言語音声認識システムを用いて実験を行った。
論文 参考訳(メタデータ) (2024-10-09T05:30:33Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。
1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文 参考訳(メタデータ) (2023-10-24T23:45:57Z) - Lip Reading for Low-resource Languages by Learning and Combining General
Speech Knowledge and Language-specific Knowledge [57.38948190611797]
本稿では,特に低リソース言語を対象とした新しい唇読解フレームワークを提案する。
低リソース言語は、そのモデルを訓練するのに十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
論文 参考訳(メタデータ) (2023-08-18T05:19:03Z) - Improving grapheme-to-phoneme conversion by learning pronunciations from
speech recordings [12.669655363646257]
Grapheme-to-Phoneme(G2P)タスクは、正書法入力を離散的な音声表現に変換することを目的としている。
音声録音から発音例を学習し,G2P変換課題を改善する手法を提案する。
論文 参考訳(メタデータ) (2023-07-31T13:25:38Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Grapheme-to-Phoneme Transformer Model for Transfer Learning Dialects [1.3786433185027864]
Grapheme-to-Phoneme(G2P)モデルは、単語を発音に変換する。
通常、辞書ベースの手法は構築にかなりの手作業を必要とし、目に見えない単語への適応性が制限されている。
本研究では,小さな辞書を用いながら,目に見えない英語の方言に適応するトランスフォーマーに基づく注意モデルを提案する。
論文 参考訳(メタデータ) (2021-04-08T21:36:21Z) - Neural Machine Translation for Multilingual Grapheme-to-Phoneme
Conversion [13.543705472805431]
複数の言語で同じエンコーダとデコーダを共有する単一エンドツーエンドのニューラルネットワークG2Pモデルを提案する。
その結果,低リソース言語に対する音素誤り率の平均は7.2%向上し,単言語ベースラインと比較して高いリソースエラー率が得られなかった。
論文 参考訳(メタデータ) (2020-06-25T06:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。