論文の概要: The Development of a Comprehensive Spanish Dictionary for Phonetic and Lexical Tagging in Socio-phonetic Research (ESPADA)
- arxiv url: http://arxiv.org/abs/2407.15375v1
- Date: Mon, 22 Jul 2024 04:51:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 16:10:42.887555
- Title: The Development of a Comprehensive Spanish Dictionary for Phonetic and Lexical Tagging in Socio-phonetic Research (ESPADA)
- Title(参考訳): 社会音韻研究における音声・語彙タギングのための包括的スペイン語辞書の開発
- Authors: Simon Gonzalez,
- Abstract要約: スペイン語の方言の変種の大部分で使用可能な、スペイン語の包括的な発音辞書(ESPADA)の作成について紹介する。
ESPADAは16か国の単語を表わす628,000以上のエントリを持つ最も完全な辞書である。
これは、スペイン語の社会音声学の枠組みにおける方言研究を強化する完全なオープンソースツールを社会音声学研究者に提供することを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pronunciation dictionaries are an important component in the process of speech forced alignment. The accuracy of these dictionaries has a strong effect on the aligned speech data since they help the mapping between orthographic transcriptions and acoustic signals. In this paper, I present the creation of a comprehensive pronunciation dictionary in Spanish (ESPADA) that can be used in most of the dialect variants of Spanish data. Current dictionaries focus on specific regional variants, but with the flexible nature of our tool, it can be readily applied to capture the most common phonetic differences across major dialectal variants. We propose improvements to current pronunciation dictionaries as well as mapping other relevant annotations such as morphological and lexical information. In terms of size, it is currently the most complete dictionary with more than 628,000 entries, representing words from 16 countries. All entries come with their corresponding pronunciations, morphological and lexical tagging, and other relevant information for phonetic analysis: stress patterns, phonotactics, IPA transcriptions, and more. This aims to equip socio-phonetic researchers with a complete open-source tool that enhances dialectal research within socio-phonetic frameworks in the Spanish language.
- Abstract(参考訳): 発音辞書は、音声強制アライメントの過程において重要な要素である。
これらの辞書の精度は、正書法と音響信号のマッピングを支援するため、一致した音声データに強い影響を与える。
本稿では,スペイン語の方言の変種の大部分で使用可能な,スペイン語の包括的発音辞書(ESPADA)の作成について述べる。
現在の辞書は、特定の地域変種に焦点を当てているが、ツールの柔軟な性質により、主要な方言変種間で最も一般的な音韻差を捉えるために、容易に適用することができる。
形態情報や語彙情報などの他のアノテーションをマッピングするだけでなく,現在の発音辞書の改良も提案する。
サイズに関しては、現在16か国の単語を表わす628,000以上のエントリを持つ、最も完全な辞書である。
すべてのエントリには、対応する発音、形態的および語彙的タグ付け、その他の音声分析に関する関連情報(ストレスパターン、フォノタクティクス、IPA転写など)が付属している。
これは、スペイン語の社会音声学の枠組みにおける方言研究を強化する完全なオープンソースツールを社会音声学研究者に提供することを目的としている。
関連論文リスト
- MUST&P-SRL: Multi-lingual and Unified Syllabification in Text and
Phonetic Domains for Speech Representation Learning [0.76146285961466]
言語特徴抽出の方法論として,複数の言語における単語の自動分割に着目した手法を提案する。
本手法は,テキストと音声の両領域において,テキストから音素の書き起こしを抽出すること,ストレスマーク,統合された自動音節分類に重点を置いている。
このシステムはオープンソースのコンポーネントとリソースで構築された。
論文 参考訳(メタデータ) (2023-10-17T19:27:23Z) - Multilingual context-based pronunciation learning for Text-to-Speech [13.941800219395757]
音声情報と言語知識は、テキスト音声(TTS)フロントエンドの重要な構成要素である。
複数言語で統一されたフロントエンドシステムで発音関連タスクに対処し、通常は別個のモジュールで処理する。
多言語モデルは言語やタスク間で競合するが、等価なモノリンガル解と比較するといくつかのトレードオフが存在する。
論文 参考訳(メタデータ) (2023-07-31T14:29:06Z) - LEXpander: applying colexification networks to automated lexicon
expansion [0.16804697591495946]
LEXpander は,新しいコネクティフィケーションデータを活用する辞書拡張手法である。
LEXpanderは,単語リストの精度とリコールのトレードオフの両面から,既存の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-31T14:55:29Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - Differentiable Allophone Graphs for Language-Universal Speech
Recognition [77.2981317283029]
言語ユニバーサル音声認識システムを構築するには、言語間で共有可能な音声の音韻単位を生成する必要がある。
本稿では,音素転写と音声-音素マッピングのみから,音素レベルの監視を導出するための一般的な枠組みを提案する。
我々は,各言語に対する可読確率的音声-音素マッピングを用いた普遍的な電話ベース音声認識モデルを構築した。
論文 参考訳(メタデータ) (2021-07-24T15:09:32Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - Accent Estimation of Japanese Words from Their Surfaces and
Romanizations for Building Large Vocabulary Accent Dictionaries [11.77729222870674]
著者らは限られた情報から単語のアクセントを予測するアクセント推定手法を開発した。
実験により, アクセントを高い精度で推定できることが確認された。
著者らは、既存の大語彙辞書NEologdにこの技法を適用し、大語彙日本語アクセント辞書を得た。
論文 参考訳(メタデータ) (2020-09-21T08:38:21Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z) - Phonotactic Complexity and its Trade-offs [73.10961848460613]
この単純な測度により、言語間のエントロピーを比較することができる。
音素あたりのビット数と単語の平均長との間には-0.74の非常に強い負の相関関係を示す。
論文 参考訳(メタデータ) (2020-05-07T21:36:59Z) - AlloVera: A Multilingual Allophone Database [137.3686036294502]
AlloVeraは、218のアロフォンから14言語のための音素へのマッピングを提供する。
我々は、AlloVeraで構築された「ユニバーサル」アロフォンモデルであるAllosaurusが、音声書き起こしタスクにおいて「ユニバーサル」音声モデルと言語特化モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-04-17T02:02:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。