論文の概要: Khmer Spellchecking: A Holistic Approach
- arxiv url: http://arxiv.org/abs/2511.09812v1
- Date: Fri, 14 Nov 2025 01:10:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.501377
- Title: Khmer Spellchecking: A Holistic Approach
- Title(参考訳): Khmer Spellchecking: 全体論的なアプローチ
- Authors: Marry Kong, Rina Buoy, Sovisal Chenda, Nguonly Taing,
- Abstract要約: 本稿では,Khmerスペルチェック問題に対する包括的アプローチを提案する。
Khmerサブワードセグメンテーション、Khmer NER、Khmer grapheme-to-phoneme(G2P)変換、そしてこれらの課題に取り組むためにKhmer言語モデルを統合する。
実験の結果,提案手法は最先端のKhmerスペルチェックの精度を94.4%まで向上することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Compared to English and other high-resource languages, spellchecking for Khmer remains an unresolved problem due to several challenges. First, there are misalignments between words in the lexicon and the word segmentation model. Second, a Khmer word can be written in different forms. Third, Khmer compound words are often loosely and easily formed, and these compound words are not always found in the lexicon. Fourth, some proper nouns may be flagged as misspellings due to the absence of a Khmer named-entity recognition (NER) model. Unfortunately, existing solutions do not adequately address these challenges. This paper proposes a holistic approach to the Khmer spellchecking problem by integrating Khmer subword segmentation, Khmer NER, Khmer grapheme-to-phoneme (G2P) conversion, and a Khmer language model to tackle these challenges, identify potential correction candidates, and rank the most suitable candidate. Experimental results show that the proposed approach achieves a state-of-the-art Khmer spellchecking accuracy of up to 94.4%, compared to existing solutions. The benchmark datasets for Khmer spellchecking and NER tasks in this study will be made publicly available.
- Abstract(参考訳): 英語や他の高リソース言語と比較して、Khmerのスペルチェックはいくつかの問題のために未解決の問題のままである。
第一に、語彙における単語と単語分割モデルの間には不一致がある。
第二に、クメール語は異なる形式で書くことができる。
第3に、クメールの複合語はしばしば緩く容易に形成され、これらの複合語はレキシコンで常に見られるわけではない。
第4に、いくつかの固有名詞は、Khmer Name-entity Recognition (NER)モデルがないため、ミススペルとしてフラグ付けされることがある。
残念ながら、既存のソリューションはこれらの課題に適切に対処していません。
本稿では,Khmerサブワードセグメンテーション,Khmer NER,Khmer grapheme-to-phoneme(G2P)変換とKhmer言語モデルを組み合わせることで,これらの課題に対処し,潜在的な修正候補を特定し,最も適した候補をランク付けすることで,Khmerスペルチェック問題に対する包括的アプローチを提案する。
実験の結果,提案手法は既存の解に比べて94.4%のスペルチェック精度が得られた。
この研究におけるKhmerスペルチェックとNERタスクのベンチマークデータセットが公開されている。
関連論文リスト
- Towards Explainable Khmer Polarity Classification [0.0]
本稿では,命令ベース推論Qwen-3モデルの微調整による説明可能なKhmer極性を提案する。
実験結果から, 微調整モデルではラベルの正確な予測だけでなく, 極性関連キーワードの同定による推論も可能であることがわかった。
論文 参考訳(メタデータ) (2025-11-12T13:23:47Z) - Evaluating the Impact of Khmer Font Types on Text Recognition [0.7743559889795233]
Khmer, Odor MeanChey, Siemreap, Sithi Manuss, Battambangは高い精度で、iSeth First, Bayon, Dangrekは成績が悪い。
本研究は,Khmerテキスト認識の最適化においてフォント選択が重要であることを明らかにする。
論文 参考訳(メタデータ) (2025-06-30T15:35:51Z) - Context Biasing for Pronunciations-Orthography Mismatch in Automatic Speech Recognition [61.601626186678146]
本稿では,置換誤りの訂正を可能とし,難解な単語の認識精度を向上させる手法を提案する。
本手法により, 単語誤り率の相対的な改善を最大8%まで達成し, 単語誤り率の競争力を維持した。
論文 参考訳(メタデータ) (2025-06-23T14:42:03Z) - A Survey on Importance of Homophones Spelling Correction Model for Khmer Authors [0.0]
ホモフォンは発音の類似性や意味や綴りが異なるため、あらゆる言語の著者にとって重要な課題である。
本研究は、Khmer著者がホモフォンを執筆に用いた際の困難に対処することを目的としている。
論文 参考訳(メタデータ) (2024-11-11T10:07:03Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文 参考訳(メタデータ) (2023-06-04T10:00:12Z) - Correcting Real-Word Spelling Errors: A New Hybrid Approach [1.5469452301122175]
実単語誤りを検出し,訂正するために,統計的・統語的知識に依存した新しいハイブリッド手法を提案する。
このモデルは、WordNetベースのHirstとBudanitskyのメソッドやWilcox-O'HearnとHirstの固定ウィンドウサイズメソッドなど、他のモデルよりも実用的であることが証明できる。
論文 参考訳(メタデータ) (2023-02-09T06:03:11Z) - Khmer Word Search: Challenges, Solutions, and Semantic-Aware Search [0.0]
複数の文字の順序と異なる単語のスペル認識は、クメール語検索機能に制約を課す。
堅牢なスペルチェッカーは入力デバイスプラットフォームで一般的に利用できないため、スペルミスは一般的である。
提案手法は文字順正規化, 音素ベースのスペルチェッカー, Khmerワードセマンティックモデルなどである。
論文 参考訳(メタデータ) (2021-12-16T14:37:41Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。