論文の概要: OTEANN: Estimating the Transparency of Orthographies with an Artificial
Neural Network
- arxiv url: http://arxiv.org/abs/1912.13321v4
- Date: Tue, 21 Sep 2021 19:34:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 20:41:12.998667
- Title: OTEANN: Estimating the Transparency of Orthographies with an Artificial
Neural Network
- Title(参考訳): OTEANN: ニューラルネットワークによるオーソグラフィの透明性の推定
- Authors: Xavier Marjou
- Abstract要約: 我々は、書き言葉と発音の透明性を評価するために、Artificial Neural Network(ANN)モデルを使用する。
我々は,このモデルを用いて,音素-音素-音素-音素-音素-音素-音素-音素-音素-音素-音素-音素-音素-音素-音素-音素-音素翻訳タスクにおいて,正しい予測のパーセンテージを訓練し,検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To transcribe spoken language to written medium, most alphabets enable an
unambiguous sound-to-letter rule. However, some writing systems have distanced
themselves from this simple concept and little work exists in Natural Language
Processing (NLP) on measuring such distance. In this study, we use an
Artificial Neural Network (ANN) model to evaluate the transparency between
written words and their pronunciation, hence its name Orthographic Transparency
Estimation with an ANN (OTEANN). Based on datasets derived from Wikimedia
dictionaries, we trained and tested this model to score the percentage of
correct predictions in phoneme-to-grapheme and grapheme-to-phoneme translation
tasks. The scores obtained on 17 orthographies were in line with the
estimations of other studies. Interestingly, the model also provided insight
into typical mistakes made by learners who only consider the phonemic rule in
reading and writing.
- Abstract(参考訳): 音声言語を媒体に書き起こすために、ほとんどのアルファベットはあいまいな音声-レター規則を可能にする。
しかし、この単純な概念から距離を置き、自然言語処理(NLP)ではそのような距離を測る作業はほとんど行われていない。
本研究では,人工ニューラルネットワーク(ann)モデルを用いて単語と発音の透明性を評価し,その名称の正書法的透明性を ann (oteann) で推定する。
ウィキメディア辞書から派生したデータセットに基づいて,音素から音素への翻訳タスクにおける正しい予測の割合を評価するために,このモデルをトレーニングし,テストした。
17の正書法で得られたスコアは他の研究の見積もりと一致した。
興味深いことに、このモデルはまた、読み書きにおける音韻規則のみを考える学習者によってなされる典型的な誤りに対する洞察を提供する。
関連論文リスト
- Algorithms For Automatic Accentuation And Transcription Of Russian Texts In Speech Recognition Systems [0.0]
本稿では,ロシア語テキストの自動アクセント化と音韻転写のためのルールベースシステムの概要について述べる。
開発したシステムの2つの部分、アクセントと文字起こしは、入力句の正しい音韻表現を実現するために異なるアプローチを用いている。
開発ツールキットはPython言語で書かれており、興味のある研究者はGitHubからアクセスできる。
論文 参考訳(メタデータ) (2024-10-03T14:43:43Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Language Semantics Interpretation with an Interaction-based Recurrent
Neural Networks [0.0]
本稿では,新しいインフルエンススコア (I-score) と,BDA (Backward Dropping Algorithm) と呼ばれるグリージー検索アルゴリズムと,"Dagger Technique" と呼ばれる特徴工学的手法を提案する。
提案手法は,他の人気ピアと比較して81%の誤差削減率で予測性能を向上させるために適用された。
論文 参考訳(メタデータ) (2021-11-02T00:39:21Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - NLP-CIC @ DIACR-Ita: POS and Neighbor Based Distributional Models for
Lexical Semantic Change in Diachronic Italian Corpora [62.997667081978825]
本稿では,イタリア語に対する教師なし語彙意味変化のシステムと知見について述べる。
その課題は、対象の単語が時間とともにその意味を進化させたかどうかを判断することであり、それは2つの時間固有のデータセットからの原文のみに依存する。
本研究では,各期間に対象単語を表す2つのモデルを提案し,しきい値と投票方式を用いて変化単語を予測する。
論文 参考訳(メタデータ) (2020-11-07T11:27:18Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - Deep learning models for representing out-of-vocabulary words [1.4502611532302039]
本稿では,語彙外(OOV)単語を表現するためのディープラーニングモデルの性能評価を行う。
OOV単語を扱うための最善のテクニックはタスクごとに異なるが、OV単語のコンテキストと形態構造に基づいて埋め込みを推論する深層学習手法であるComickは、有望な結果を得た。
論文 参考訳(メタデータ) (2020-07-14T19:31:25Z) - Learning Spoken Language Representations with Neural Lattice Language
Modeling [39.50831917042577]
本稿では,音声言語理解タスクのための文脈表現を提供するために,ニューラルネットワーク言語モデルを訓練するフレームワークを提案する。
提案する2段階事前学習手法は,音声データの要求を低減し,効率を向上する。
論文 参考訳(メタデータ) (2020-07-06T10:38:03Z) - Binary and Multitask Classification Model for Dutch Anaphora Resolution:
Die/Dat Prediction [18.309099448064273]
オランダ語の代名詞「ディー」と「ダット」の正しい用法は、オランダ語の母語話者と非母語話者の双方にとって不安定なブロックである。
本研究は,オランダ語実証および相対代名詞分解のための最初のニューラルネットワークモデルを構築した。
論文 参考訳(メタデータ) (2020-01-09T12:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。