論文の概要: Correcting diacritics and typos with ByT5 transformer model
- arxiv url: http://arxiv.org/abs/2201.13242v1
- Date: Mon, 31 Jan 2022 13:52:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 14:43:05.564750
- Title: Correcting diacritics and typos with ByT5 transformer model
- Title(参考訳): byt5トランスフォーマーモデルによるダイアクリティックス・タイポスの補正
- Authors: Lukas Stankevi\v{c}ius, Mantas Luko\v{s}evi\v{c}ius, Jurgita
Kapo\v{c}i\=ut\.e-Dzikien\.e, Monika Briedien\.e, Tomas Krilavi\v{c}ius
- Abstract要約: 人々は、ダイアクリティカルを使ってタイピング時にタイプミス(タイポ)をする傾向がある。
本研究では,新たに開発されたByT5バイトレベルのトランスモデルを用いて,両問題に一度に対処する。
ダイアクリティカルス修復とタイポス補正の併用により,13言語における最先端性能が実証された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the fast pace of life and online communications, the prevalence of
English and the QWERTY keyboard, people tend to forgo using diacritics, make
typographical errors (typos) when typing. Restoring diacritics and correcting
spelling is important for proper language use and disambiguation of texts for
both humans and downstream algorithms. However, both of these problems are
typically addressed separately, i.e., state-of-the-art diacritics restoration
methods do not tolerate other typos. In this work, we tackle both problems at
once by employing newly-developed ByT5 byte-level transformer models. Our
simultaneous diacritics restoration and typos correction approach demonstrates
near state-of-the-art performance in 13 languages, reaching >96% of the
alpha-word accuracy. We also perform diacritics restoration alone on 12
benchmark datasets with the additional one for the Lithuanian language. The
experimental investigation proves that our approach is able to achieve
comparable results (>98%) to previously reported despite being trained on fewer
data. Our approach is also able to restore diacritics in words not seen during
training with >76% accuracy. We also show the accuracies to further improve
with longer training. All this shows a great real-world application potential
of our suggested methods to more data, languages, and error classes.
- Abstract(参考訳): 生活の速さとオンラインコミュニケーション、英語とqwertyキーボードの普及により、人々はダイアクリティカルスを使用し、タイピング時にタイプミス(タイプミス)をする傾向がある。
ダイアクリティカルスペルの復元と修正は、人間と下流アルゴリズムの両方のテキストの適切な使用と曖昧化のために重要である。
しかしながら、これら2つの問題は一般的に別々に解決される。すなわち、最先端のダイアクリティカルな復元法は他のタイプを許容しない。
本研究では,新たに開発されたByT5バイトレベルのトランスモデルを用いて,両問題に一度に対処する。
ダイアクリティカルス修復とタイポス補正の同時手法により,13言語における最先端性能を実証し,α単語の精度の96%に達した。
また,12のベンチマークデータセットに対して,リトアニア語を付加したダイアクリティカルス復元を行う。
実験により,本手法は,少ないデータでトレーニングされたにもかかわらず,従来報告した結果と同等の結果(>98%)を達成できることが証明された。
また,訓練中に見ない単語のダイアクリティカルスを76%以上の精度で復元することができる。
また、より長いトレーニングでさらに改善するためのアキュラシーも示します。
これら全ては、より多くのデータ、言語、エラークラスに対して提案するメソッドの素晴らしい実世界応用可能性を示しています。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - A transformer-based spelling error correction framework for Bangla and resource scarce Indic languages [2.5874041837241304]
スペル訂正(スペルりょう、英: Spelling error correction)は、テキスト中のミスペル語を識別し、修正するタスクである。
バングラ語と資源不足のIndic言語におけるスペルエラー訂正の取り組みは、ルールベース、統計、機械学習ベースの手法に重点を置いていた。
本稿では,従来の問題に対処し,デノナイジング変換器をベースとした新しい検出器-ピューリフィエータ-コレクタDPCを提案する。
論文 参考訳(メタデータ) (2022-11-07T17:59:05Z) - VSEC: Transformer-based Model for Vietnamese Spelling Correction [0.19116784879310028]
ベトナム語のスペル誤りを訂正する新しい手法を提案する。
深層学習モデルを用いて誤字誤りや誤字誤りの問題に対処する。
実験の結果,86.8%の誤差が検出され,81.5%の誤りが修正された。
論文 参考訳(メタデータ) (2021-11-01T00:55:32Z) - Diacritics Restoration using BERT with Analysis on Czech language [3.2729625923640278]
本稿では,コンテキスト適応型埋め込み,すなわちBERTに基づくダイアクリティカルリカバリのための新しいアーキテクチャを提案する。
チェコ語(チェコ語)について詳細な誤り解析を行い、高い評価基準を持つ形態学的に豊かな言語である。
論文 参考訳(メタデータ) (2021-05-24T16:58:27Z) - Spelling Correction with Denoising Transformer [0.0]
本稿では,検索クエリや個々の単語など,短い入力文字列に対してスペル補正を行う手法を提案する。
その核となるのは、人間が示すエラーパターンに密接に従う人工的タイプミスを生成する手順である。
この手順は、トランスアーキテクチャに基づく生産スペル補正モデルのトレーニングに使用されます。
論文 参考訳(メタデータ) (2021-05-12T21:35:18Z) - NeuSpell: A Neural Spelling Correction Toolkit [88.79419580807519]
NeuSpellは、英語でスペル修正を行うためのオープンソースのツールキットである。
10の異なるモデルで構成され、複数のソースからのミススペルをベンチマークする。
我々は、逆エンジニアリング分離ミススペルによって合成的に構築された文脈におけるスペルエラーを用いてニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2020-10-21T15:53:29Z) - A Multitask Learning Approach for Diacritic Restoration [21.288912928687186]
アラビア語のような多くの言語では、発音と意味を区別するためにダイアクリティカルが用いられる。
このようなダイアクリティカル語はテキストで省略されることが多く、単語の発音や意味の数が増加する。
我々は、共同モデリングにおいて考慮すべきタスクに十分なデータ資源があるため、ケーススタディとしてアラビア語を使用します。
論文 参考訳(メタデータ) (2020-06-07T01:20:40Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。