論文の概要: Assessing Dutch Syllabification Algorithms and Improving Accuracy by Combining Phonetic and Orthographic Information through Deep Learning
- arxiv url: http://arxiv.org/abs/2605.28834v1
- Date: Fri, 10 Apr 2026 13:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.549408
- Title: Assessing Dutch Syllabification Algorithms and Improving Accuracy by Combining Phonetic and Orthographic Information through Deep Learning
- Title(参考訳): 深層学習による音韻情報とオルソグラフィ情報の組み合わせによるオランダ音節分類アルゴリズムの評価と精度向上
- Authors: Gus Lathouwers, Wieke Harmsen, Catia Cucchiarini, Helmer Strik,
- Abstract要約: 音節化(syllabification)とは、単語を音節に分割する作業である。
オランダのシラビフィケーションのための異なるアルゴリズムが提案されているが、比較評価は行われていない。
オランダの正書法シラビフィケーションのための近代的なディープラーニングベースのフレームワークは開発されていない。
- 参考スコア(独自算出の注目度): 8.0557471355991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Syllabification describes the task of dividing words into syllables. Due to many rules and exceptions, training an algorithm to perform syllabification with high accuracy remains a challenge. Throughout the last decades, different algorithms have been put forth for Dutch syllabification, yet a comprehensive comparative assessment has not been done. Additionally, deep learning has gained significant popularity within NLP in recent years, yet no modern deep-learning based framework has been developed for Dutch orthographic syllabification. Finally, phonetic and orthographic syllabification algorithms have been examined separately, but not in combination. The aim of the current research was twofold: (a) to examine the performance of existing Dutch syllabification algorithms, and (b) to investigate whether combining phonetic and orthographic information into a single model can increase syllabification performance. To compare the performance of algorithms, four algorithms (Brandt Corstius, Liang, Trogkanis-Elkan (CRF), and a newly conceived deep-learning model) were applied to three different datasets (dictionary words, loanwords, pseudowords). The algorithms show varying performance across datasets, with the data-driven algorithms outperforming a knowledge-based algorithm in all but one condition. The new deep-learning methods developed led to increased performance compared to the best found in the literature (99.65% word accuracy, a 0.14% improvement). An analysis of the words for which adding phonetic information improved syllabification performance indicates that these were words in which the orthographic ambiguity could be resolved by information on pronunciation. Future research could examine other areas where phonetic information can benefit orthographic processing. In addition, the newly developed deep learning frameworks can be applied to other languages than Dutch.
- Abstract(参考訳): 音節化(syllabification)とは、単語を音節に分割する作業である。
多くの規則や例外のため、高い精度でシラビフィケーションを行うアルゴリズムを訓練することは依然として困難である。
過去数十年にわたり、オランダのシラビフィケーションのための異なるアルゴリズムが検討されてきたが、包括的な比較評価は行われていない。
さらに、近年、ディープラーニングはNLP内で大きな人気を集めているが、オランダの正書法シラビフィケーションのための近代的なディープラーニングベースのフレームワークは開発されていない。
最後に、音声と正書法を別々に検討するが、組み合わせはしない。
現在の研究の目的は2つある。
(a)既存のオランダ製シラビフィケーションアルゴリズムの性能を検査し、
(b) 音韻情報と正書法情報を一つのモデルに組み込むことで、音節化性能が向上するかどうかを検討すること。
アルゴリズムの性能を比較するため、4つのアルゴリズム(Brandt Corstius, Liang, Trogkanis-Elkan, CRF)を3つの異なるデータセット(辞書語, ローン語, 擬似語)に適用した。
アルゴリズムはデータセット間で様々なパフォーマンスを示し、データ駆動アルゴリズムは1つの条件を除いて知識ベースのアルゴリズムよりも優れています。
新たなディープラーニング手法が開発され、文献でよく見られるもの(単語の精度99.65%、改善率0.14%)と比べて性能が向上した。
音素情報の付加により音素化性能が向上した単語を解析したところ,これらは発音情報によって正書法的曖昧さを解消できる単語であることがわかった。
将来の研究は、音声情報が正書法処理に役立つ他の分野を調べるかもしれない。
さらに、新たに開発されたディープラーニングフレームワークは、オランダ語以外の言語にも適用することができる。
関連論文リスト
- Repeating Words for Video-Language Retrieval with Coarse-to-Fine Objectives [93.31112073070906]
既存の方法はビデオ検索性能を向上させるために大規模な事前学習に依存している。
そこで我々は,より微粒な特徴を学習し,アライメントを改善するための新しいフレームワークを提案する。
追加のトレーニングなしでパフォーマンスを改善するための推論パイプラインも導入しています。
論文 参考訳(メタデータ) (2025-08-20T16:03:56Z) - Lightweight Conceptual Dictionary Learning for Text Classification Using Information Compression [15.460141768587663]
データ圧縮と表現に基づくテキスト分類のための軽量な教師付き辞書学習フレームワークを提案する。
我々は,情報ボトルネックの原理を用いて情報理論性能を評価し,情報理論性能を定量化するための新しい指標として情報平面面積ランク(IPAR)を導入する。
論文 参考訳(メタデータ) (2024-04-28T10:11:52Z) - Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
音声認識のための自己教師付き連続学習手法を提案する。
文献からのメモリ拡張型ASRモデルを用いて、スライドから新しい単語を復号する。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - Design and Implementation of a Tool for Extracting Uzbek Syllables [0.0]
シラビフィケーション(Syllabification)は、言語研究、言語技術、教育、および様々な分野に応用された多用途の言語ツールである。
本稿では,ルールベースの手法や機械学習アルゴリズムを含む,ウズベク語のシラビフィケーションに対する包括的アプローチを提案する。
実験の結果,両アプローチは高い精度を示し,99%以上であった。
論文 参考訳(メタデータ) (2023-12-25T17:46:58Z) - SememeASR: Boosting Performance of End-to-End Speech Recognition against
Domain and Long-Tailed Data Shift with Sememe Semantic Knowledge [58.979490858061745]
セメムに基づくセマンティック知識情報を音声認識に導入する。
実験の結果,セム情報により音声認識の有効性が向上することが示された。
さらに,本実験により,セメム知識が長期データ認識を改善することが確認された。
論文 参考訳(メタデータ) (2023-09-04T08:35:05Z) - A Novel Ehanced Move Recognition Algorithm Based on Pre-trained Models
with Positional Embeddings [6.688643243555054]
要約の認識は、コンテンツを効果的に特定し、記事を明確にするために重要である。
本稿では,中国科学・技術論文の非構造的抽象化に対する注意機構を備えた,改良された事前学習モデルとゲートネットワークを備えた新しい動き認識アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-14T03:20:28Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Seeing wake words: Audio-visual Keyword Spotting [103.12655603634337]
KWS-Netは、類似マップ中間表現を用いてタスクをシーケンスマッチングとパターン検出に分離する新しい畳み込みアーキテクチャである。
本手法は他の言語,特にフランス語とドイツ語に一般化し,より少ない言語データで英語に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2020-09-02T17:57:38Z) - Morfessor EM+Prune: Improved Subword Segmentation with Expectation
Maximization and Pruning [14.116412358534442]
本稿では,予測最大化アルゴリズムと辞書プルーニングに基づく,ユニグラムサブワードモデルのトレーニングアルゴリズムについて検討・比較する。
提案手法は,Morfessor Baselineモデルによって定義される最適化問題に対して,よりよい解を求めることができることを示す。
改良された最適化により、言語的なゴールド標準と比較して、モルフォロジーのセグメンテーション精度が向上する。
論文 参考訳(メタデータ) (2020-03-06T10:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。