論文の概要: PERCORE: A Deep Learning-Based Framework for Persian Spelling Correction with Phonetic Analysis
- arxiv url: http://arxiv.org/abs/2407.14789v1
- Date: Sat, 20 Jul 2024 07:41:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 20:54:16.012307
- Title: PERCORE: A Deep Learning-Based Framework for Persian Spelling Correction with Phonetic Analysis
- Title(参考訳): PERCORE: ペルシャ語の音声分析による誤り訂正のための深層学習型フレームワーク
- Authors: Seyed Mohammad Sadegh Dashti, Amid Khatibi Bardsiri, Mehdi Jafari Shahbazzadeh,
- Abstract要約: 本研究では,ディープラーニング技術と音声解析をシームレスに統合したペルシャ語スペル訂正システムを提案する。
提案手法は,文脈分析と音韻的洞察を効果的に組み合わせ,非単語と実単語の綴り誤りを正確に補正する。
広帯域データセットの徹底的な評価により,既存手法と比較してシステムの性能が向上することを確認した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research introduces a state-of-the-art Persian spelling correction system that seamlessly integrates deep learning techniques with phonetic analysis, significantly enhancing the accuracy and efficiency of natural language processing (NLP) for Persian. Utilizing a fine-tuned language representation model, our methodology effectively combines deep contextual analysis with phonetic insights, adeptly correcting both non-word and real-word spelling errors. This strategy proves particularly effective in tackling the unique complexities of Persian spelling, including its elaborate morphology and the challenge of homophony. A thorough evaluation on a wide-ranging dataset confirms our system's superior performance compared to existing methods, with impressive F1-Scores of 0.890 for detecting real-word errors and 0.905 for correcting them. Additionally, the system demonstrates a strong capability in non-word error correction, achieving an F1-Score of 0.891. These results illustrate the significant benefits of incorporating phonetic insights into deep learning models for spelling correction. Our contributions not only advance Persian language processing by providing a versatile solution for a variety of NLP applications but also pave the way for future research in the field, emphasizing the critical role of phonetic analysis in developing effective spelling correction system.
- Abstract(参考訳): 本研究では,ペルシャ語に対する自然言語処理(NLP)の精度と効率を大幅に向上させ,深層学習技術と音声解析をシームレスに統合するペルシャ語スペル訂正システムを提案する。
提案手法は,微調整言語表現モデルを用いて,文脈分析と音韻的洞察を効果的に組み合わせ,非単語と実単語の綴り誤りを積極的に補正する。
この戦略はペルシャ語の綴りの独特な複雑さに取り組むのに特に有効であり、その精巧な形態学やホモフォニーの挑戦を含んでいる。
広帯域データセットの徹底的な評価により,実単語誤り検出用F1スコアが0.890,修正用0.905,既存手法と比較してシステムの性能が向上した。
さらに,非単語誤り訂正において,F1スコアが0.891であることを示す。
これらの結果は,スペル訂正のための深層学習モデルに音声学的洞察を取り入れることの意義を示唆している。
我々の貢献は、様々なNLPアプリケーションに汎用的なソリューションを提供することによってペルシア語処理を前進させるだけでなく、音韻解析が効果的な綴り訂正システムを開発する上で重要な役割を担っている分野における将来の研究の道を開くことでもある。
関連論文リスト
- Improving the quality of Persian clinical text with a novel spelling correction system [0.0]
エレクトロニック・ヘルス・レコード(EHR)のスペルの精度は、効率的な臨床ケア、研究、患者の安全確保にとって重要な要素である。
本研究は,ペルシャ語臨床テキストにおける綴り誤りの検出と修正のための革新的なアプローチを開発することを目的とした。
論文 参考訳(メタデータ) (2024-08-07T08:31:42Z) - Automatic Real-word Error Correction in Persian Text [0.0]
本稿では,ペルシャ語テキストにおける高精度かつ効率的な実単語誤り訂正のための最先端手法を提案する。
我々は,誤り検出と訂正の有効性を高めるために,意味解析,特徴選択,高度な分類器を用いる。
本手法は,検出段階で96.6%,補正時に99.1%の精度でF測定を行う。
論文 参考訳(メタデータ) (2024-07-20T07:50:52Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Improving Language Models Meaning Understanding and Consistency by
Learning Conceptual Roles from Dictionary [65.268245109828]
現代事前訓練言語モデル(PLM)の非人間的行動は、その信頼性を損なう主要な原因である。
驚くべき現象は、矛盾した結果を生み出す不整合予測の生成である。
本研究では,PLMの認知度を向上させることで,一貫性のない行動問題を緩和する実践的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-24T06:15:15Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Persian Typographical Error Type Detection Using Deep Neural Networks on Algorithmically-Generated Misspellings [2.2503811834154104]
タイポグラフィーによるペルシャのエラータイプ検出は比較的調査の少ない地域である。
本稿では,ペルシャ語文の誤字を検出するための説得力のあるアプローチを提案する。
最終手法の結果は競争力が高く、精度は97.62%、精度は98.83%、リコールは98.61%、速度は他を上回った。
論文 参考訳(メタデータ) (2023-05-19T15:05:39Z) - A transformer-based spelling error correction framework for Bangla and resource scarce Indic languages [2.5874041837241304]
スペル訂正(スペルりょう、英: Spelling error correction)は、テキスト中のミスペル語を識別し、修正するタスクである。
バングラ語と資源不足のIndic言語におけるスペルエラー訂正の取り組みは、ルールベース、統計、機械学習ベースの手法に重点を置いていた。
本稿では,従来の問題に対処し,デノナイジング変換器をベースとした新しい検出器-ピューリフィエータ-コレクタDPCを提案する。
論文 参考訳(メタデータ) (2022-11-07T17:59:05Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - An Approach to Mispronunciation Detection and Diagnosis with Acoustic,
Phonetic and Linguistic (APL) Embeddings [18.282632348274756]
大量の単語レベルのアノテーションで訓練されたASRモデルから抽出された音声埋め込みは、入力音声の内容のよい表現として機能する。
我々は,より強力なMD&Dシステムを構築するために,音響,音声,言語 (APL) の埋め込み機能を併用することを提案する。
論文 参考訳(メタデータ) (2021-10-14T11:25:02Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。