論文の概要: Offline Detection of Misspelled Handwritten Words by Convolving
Recognition Model Features with Text Labels
- arxiv url: http://arxiv.org/abs/2309.10158v1
- Date: Mon, 18 Sep 2023 21:13:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 17:27:46.915541
- Title: Offline Detection of Misspelled Handwritten Words by Convolving
Recognition Model Features with Text Labels
- Title(参考訳): テキストラベル付き認識モデル特徴の畳み込みによる手書き誤字のオフライン検出
- Authors: Andrey Totev and Tomas Ward
- Abstract要約: テキストに対して手書き画像を比較する作業を紹介する。
我々のモデルの分類ヘッドは、最先端の生成逆数ネットワークを用いて生成された合成データに基づいて訓練されている。
このような大規模なパフォーマンス向上は、ヒューマン・イン・ザ・ループの自動化を利用したアプリケーションの生産性を大幅に向上させる可能性がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline handwriting recognition (HWR) has improved significantly with the
advent of deep learning architectures in recent years. Nevertheless, it remains
a challenging problem and practical applications often rely on post-processing
techniques for restricting the predicted words via lexicons or language models.
Despite their enhanced performance, such systems are less usable in contexts
where out-of-vocabulary words are anticipated, e.g. for detecting misspelled
words in school assessments. To that end, we introduce the task of comparing a
handwriting image to text. To solve the problem, we propose an unrestricted
binary classifier, consisting of a HWR feature extractor and a multimodal
classification head which convolves the feature extractor output with the
vector representation of the input text. Our model's classification head is
trained entirely on synthetic data created using a state-of-the-art generative
adversarial network. We demonstrate that, while maintaining high recall, the
classifier can be calibrated to achieve an average precision increase of 19.5%
compared to addressing the task by directly using state-of-the-art HWR models.
Such massive performance gains can lead to significant productivity increases
in applications utilizing human-in-the-loop automation.
- Abstract(参考訳): 近年のディープラーニングアーキテクチャの出現に伴い,オフライン手書き認識(HWR)は大幅に改善されている。
それでも、これは難しい問題であり、実際的な応用は、予測された単語を辞書や言語モデルで制限するための後処理技術に依存することが多い。
性能が向上しているにもかかわらず、このようなシステムは、例えば学校評価における誤字の検出など、語彙外単語が期待される文脈では利用できない。
そこで本研究では,手書き画像とテキストを比較する作業を紹介する。
そこで本研究では,HWR特徴抽出器と特徴抽出器出力と入力テキストのベクトル表現とを結合したマルチモーダル分類ヘッドとからなる非制限バイナリ分類器を提案する。
我々のモデルの分類ヘッドは、最先端の生成的敵ネットワークを用いて作成された合成データに基づいて完全に訓練される。
我々は,高いリコールを維持しながら,最新のHWRモデルを直接使用することにより,タスクに対処するよりも平均精度19.5%向上を達成するために,分類器を校正できることを実証した。
このような大幅なパフォーマンス向上は、ヒューマン・イン・ザ・ループの自動化を利用したアプリケーションにおける大幅な生産性向上につながる可能性がある。
関連論文リスト
- Improving Neural Biasing for Contextual Speech Recognition by Early Context Injection and Text Perturbation [27.057810339120664]
文脈認識型ASRモデルを改善するための2つの手法を提案する。
LibriSpeechでは, バイアスや浅い融合に比べて, 単語誤り率を60%, 25%削減する。
SPGISpeechと実世界のデータセットConECでは、ベースラインよりも優れた改善が得られます。
論文 参考訳(メタデータ) (2024-07-14T19:32:33Z) - Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - SmartPatch: Improving Handwritten Word Imitation with Patch
Discriminators [67.54204685189255]
本稿では,現在の最先端手法の性能を向上させる新手法であるSmartPatchを提案する。
我々は、よく知られたパッチ損失と、平行訓練された手書きテキスト認識システムから収集された情報を組み合わせる。
これにより、より強化された局所識別器が実現し、より現実的で高品質な手書き文字が生成される。
論文 参考訳(メタデータ) (2021-05-21T18:34:21Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z) - Generating Human Readable Transcript for Automatic Speech Recognition
with Pre-trained Language Model [18.26945997660616]
多くの下流のタスクと人間の読者は、ASRシステムの出力に依存しています。
本稿では,不正かつノイズの多いASR出力を可読テキストに変換することを目的としたASR後処理モデルを提案する。
論文 参考訳(メタデータ) (2021-02-22T15:45:50Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - ScrabbleGAN: Semi-Supervised Varying Length Handwritten Text Generation [0.9542023122304099]
ScrabbleGANは手書きテキストイメージを半教師付きで合成する手法である。
ScrabbleGANは任意の長さの単語の画像を生成する新しい生成モデルに依存している。
論文 参考訳(メタデータ) (2020-03-23T21:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。