論文の概要: A Proposal of Automatic Error Correction in Text
- arxiv url: http://arxiv.org/abs/2112.01846v1
- Date: Fri, 24 Sep 2021 17:17:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 20:51:06.696349
- Title: A Proposal of Automatic Error Correction in Text
- Title(参考訳): テキストの自動誤り訂正の提案
- Authors: Wulfrano A. Luna-Ram\'irez and Carlos R. Jaimez-Gonz\'alez
- Abstract要約: 電子テキストにおけるオートグラフィエラーの自動認識と修正の応用を示す。
この提案は、スペイン語の音声テキスト分類、単語類似性、単語辞書、統計測度、形態素解析、n-gramsに基づく言語モデルの一部を基礎としている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The great amount of information that can be stored in electronic media is
growing up daily. Many of them is got mainly by typing, such as the huge of
information obtained from web 2.0 sites; or scaned and processing by an Optical
Character Recognition software, like the texts of libraries and goverment
offices. Both processes introduce error in texts, so it is difficult to use the
data for other purposes than just to read it, i.e. the processing of those
texts by other applications like e-learning, learning of languages, electronic
tutorials, data minning, information retrieval and even more specialized
systems such as tiflologic software, specifically blinded people-oriented
applications like automatic reading, where the text would be error free as
possible in order to make easier the text to speech task, and so on. In this
paper it is showed an application of automatic recognition and correction of
ortographic errors in electronic texts. This task is composed of three stages:
a) error detection; b) candidate corrections generation; and c) correction
-selection of the best candidate. The proposal is based in part of speech text
categorization, word similarity, word diccionaries, statistical measures,
morphologic analisys and n-grams based language model of Spanish.
- Abstract(参考訳): 電子メディアに保存できる情報の量は日々増えています。
それらの多くは、Web 2.0サイトから得た大量の情報や、ライブラリやGoverment Officeのテキストなど、光学文字認識ソフトウェアによってスキャンされ、処理されるなど、主にタイピングによって取得される。
Both processes introduce error in texts, so it is difficult to use the data for other purposes than just to read it, i.e. the processing of those texts by other applications like e-learning, learning of languages, electronic tutorials, data minning, information retrieval and even more specialized systems such as tiflologic software, specifically blinded people-oriented applications like automatic reading, where the text would be error free as possible in order to make easier the text to speech task, and so on.
本稿では,電子テキストにおけるオートグラフィエラーの自動認識と修正の応用について述べる。
この課題は3つの段階から成り立っている。
a) 誤り検出
b) 候補補正生成,及び
c) 補正 - 最良の候補の選択。
この提案は、音声テキストの分類、単語の類似性、単語辞書、統計的尺度、形態学的アナリシス、スペイン語のn-gramsに基づく言語モデルに基づいている。
関連論文リスト
- Neural Automated Writing Evaluation with Corrective Feedback [4.196341216787864]
本稿では,修正フィードバックを用いた自動筆記評価システムを提案する。
このシステムにより、言語学習者はエッセイの執筆テストをシミュレートできる。
また、無数のエッセイを手作業で修正することの負担を軽減する。
論文 参考訳(メタデータ) (2024-02-27T15:42:33Z) - TEXTRON: Weakly Supervised Multilingual Text Detection through Data
Programming [21.88026116276415]
テキスト検出はコンピュータビジョン(CV)分野における課題である
テキスト検出には単語レベルのラベル付きデータが不足しており、特に多言語設定やインドのスクリプトではそうである。
データプログラミングベースのアプローチであるTEXTRONを提案し、ユーザは様々なテキスト検出方法を弱い監督ベースの学習フレームワークにプラグインできる。
論文 参考訳(メタデータ) (2024-02-15T09:18:18Z) - A Methodology for Generative Spelling Correction via Natural Spelling
Errors Emulation across Multiple Domains and Languages [39.75847219395984]
本稿では,英語とロシア語でテストした生成スペル補正法について述べる。
本研究では,これらの誤りを正しい文でエミュレートして生成モデルの事前訓練手順を効果的に強化する方法について検討する。
SAGE(Spell check via Augmentation and Generative Distribution Emulation)を紹介します。
論文 参考訳(メタデータ) (2023-08-18T10:07:28Z) - DPCSpell: A Transformer-based Detector-Purificator-Corrector Framework
for Spelling Error Correction of Bangla and Resource Scarce Indic Languages [1.7205106391379026]
スペル訂正(スペルりょう、英: Spelling error correction)は、テキスト中のミスペル語を識別し、修正するタスクである。
バングラ語と資源不足のIndic言語におけるスペルエラー訂正の取り組みは、ルールベース、統計、機械学習ベースの手法に重点を置いていた。
本稿では, 従来の問題に対処し, 変圧器をデノナイズする新しい検出器・ピューリフィエータ・コレクタフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-07T17:59:05Z) - Learning a Grammar Inducer from Massive Uncurated Instructional Videos [118.7279072358029]
映像支援文法帰納法は,映像情報を利用してより正確な構文文法を検索することを目的としている。
我々は手動で設計した機能なしでビデオスパン相関をよりよく学習できる新しいモデルを構築した。
我々のモデルは、ドメイン内のデータに基づいてトレーニングされた従来の最先端システムよりも高いF1スコアが得られる。
論文 参考訳(メタデータ) (2022-10-22T00:22:55Z) - Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Scarecrow: A Framework for Scrutinizing Machine Text [69.26985439191151]
我々はScarecrowと呼ばれる新しい構造化されたクラウドソースエラーアノテーションスキーマを導入する。
Scarecrowは1.3kの人文と機械が生成する英語ニューステキストの13kのアノテーションを収集する。
これらの結果は,現在および将来のテキスト生成システムの評価において,Scarecrowアノテーションの価値を示すものである。
論文 参考訳(メタデータ) (2021-07-02T22:37:03Z) - Misspelling Correction with Pre-trained Contextual Language Model [0.0]
BERTと編集距離アルゴリズムに基づく2つの実験を行い、候補補正のランキングと選択を行います。
実験の結果,BERTの文脈単語埋め込みと編集距離を適切に組み合わせることで,スペルエラーを効果的に修正できることが判明した。
論文 参考訳(メタデータ) (2021-01-08T20:11:01Z) - OCR Post Correction for Endangered Language Texts [113.8242302688894]
我々は、3つの危惧言語でスキャンされた書籍の書き起こしのベンチマークデータセットを作成する。
本稿では,汎用OCRツールがデータ・スカース・セッティングに対して堅牢でないかを体系的に分析する。
我々は,このデータ・スカース・セッティングにおけるトレーニングを容易にするために,OCRポスト補正法を開発した。
論文 参考訳(メタデータ) (2020-11-10T21:21:08Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。