論文の概要: Learning to pronounce as measuring cross lingual joint
orthography-phonology complexity
- arxiv url: http://arxiv.org/abs/2202.00794v1
- Date: Sat, 29 Jan 2022 14:44:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 04:16:05.581435
- Title: Learning to pronounce as measuring cross lingual joint
orthography-phonology complexity
- Title(参考訳): 言語交叉関節正書法・音韻複雑性測定としての発音の学習
- Authors: Domenic Rosati
- Abstract要約: 本稿では,グラファイム対音素(g2p)の音素翻訳のタスクをモデル化することにより,言語が「発音しにくい」理由について検討する。
発音の学習に関して、より簡単で難しい言語を区別する特定の特徴が浮かび上がっていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has demonstrated that machine learning models allow us to compare
languages by showing how hard each language might be to learn under specific
tasks. Following this line of investigation, we investigate what makes a
language "hard to pronounce" by modelling the task of grapheme-to-phoneme (g2p)
transliteration. By training a character-level transformer model on this task
across 22 languages and measuring the model's proficiency against its grapheme
and phoneme inventories, we show that certain characteristics emerge that
separate easier and harder languages with respect to learning to pronounce.
Namely that the complexity of a languages pronunciation from its orthography is
due to how expressive or simple its grapheme-to-phoneme mapping is. Further
discussion illustrates how future studies should consider relative data
sparsity per language in order to design more fair cross lingual comparison
tasks.
- Abstract(参考訳): 近年の研究では、機械学習モデルによって、各言語が特定のタスクで学習することの難しさを示すことによって、言語を比較することが可能であることが示されている。
本研究は,グラファイム対音素(g2p)翻訳のタスクをモデル化することにより,言語が「発音しにくい」理由について検討する。
このタスクにおいて,22言語にまたがる文字レベルのトランスフォーマーモデルをトレーニングし,その習熟度をグラフや音素の在庫と比較することにより,発音の学習においてより容易で難しい言語を区別する特性が現れることを示す。
すなわち、その正書法から発音される言語の複雑さは、そのグラフと音素のマッピングがいかに表現的か、あるいは単純かによる。
さらに議論は、より公平な言語間比較タスクを設計するために、将来の研究が言語ごとの相対データスパーシティをどのように考慮すべきかを説明している。
関連論文リスト
- Information-Theoretic Characterization of Vowel Harmony: A
Cross-Linguistic Study on Word Lists [18.138642719651994]
自然言語辞書における母音の予測可能性に基づく調和性の情報理論的尺度を定義する。
音素レベル言語モデル(PLM)を用いてこの調和性を推定する。
我々の研究は、単語リストが類型研究にとって貴重な資源であることを実証している。
論文 参考訳(メタデータ) (2023-08-09T11:32:16Z) - Multilingual context-based pronunciation learning for Text-to-Speech [13.941800219395757]
音声情報と言語知識は、テキスト音声(TTS)フロントエンドの重要な構成要素である。
複数言語で統一されたフロントエンドシステムで発音関連タスクに対処し、通常は別個のモジュールで処理する。
多言語モデルは言語やタスク間で競合するが、等価なモノリンガル解と比較するといくつかのトレードオフが存在する。
論文 参考訳(メタデータ) (2023-07-31T14:29:06Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Cross-Lingual Transfer of Cognitive Processing Complexity [11.939409227407769]
我々は,構造的複雑さの認知指標として,文レベルの視線追跡パターンを用いる。
マルチ言語モデル XLM-RoBERTa は,13言語に対して様々なパターンを予測できることを示す。
論文 参考訳(メタデータ) (2023-02-24T15:48:23Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - LSTM Acoustic Models Learn to Align and Pronounce with Graphemes [22.453756228457017]
そこで本研究では,純粋にデータ駆動型で学習可能なグラファイムに基づく音声認識手法を提案する。
大規模なデータセットで学習すると,音素出力モデルとWERが競合することを示す。
論文 参考訳(メタデータ) (2020-08-13T21:38:36Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。