論文の概要: Segmentation-free Connectionist Temporal Classification loss based OCR
Model for Text Captcha Classification
- arxiv url: http://arxiv.org/abs/2402.05417v1
- Date: Thu, 8 Feb 2024 05:18:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 16:18:52.262773
- Title: Segmentation-free Connectionist Temporal Classification loss based OCR
Model for Text Captcha Classification
- Title(参考訳): テキストキャプチャ分類のためのセグメンテーションフリーコネクショニスト時間分類損失に基づくOCRモデル
- Authors: Vaibhav Khatavkar, Makarand Velankar and Sneha Petkar
- Abstract要約: 本稿では,コネクショニストの時間的分類損失に基づくテキストカプチャ分類のためのセグメンテーションフリーOCRモデルを提案する。
提案モデルの精度を最先端モデルと比較し,有効であることを示す。
- 参考スコア(独自算出の注目度): 7.37329190948762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Captcha are widely used to secure systems from automatic responses by
distinguishing computer responses from human responses. Text, audio, video,
picture picture-based Optical Character Recognition (OCR) are used for creating
captcha. Text-based OCR captcha are the most often used captcha which faces
issues namely, complex and distorted contents. There are attempts to build
captcha detection and classification-based systems using machine learning and
neural networks, which need to be tuned for accuracy. The existing systems face
challenges in the recognition of distorted characters, handling variable-length
captcha and finding sequential dependencies in captcha. In this work, we
propose a segmentation-free OCR model for text captcha classification based on
the connectionist temporal classification loss technique. The proposed model is
trained and tested on a publicly available captcha dataset. The proposed model
gives 99.80\% character level accuracy, while 95\% word level accuracy. The
accuracy of the proposed model is compared with the state-of-the-art models and
proves to be effective. The variable length complex captcha can be thus
processed with the segmentation-free connectionist temporal classification loss
technique with dependencies which will be massively used in securing the
software systems.
- Abstract(参考訳): Captchaは、コンピュータ応答と人間の応答を区別することで、自動応答からシステムを保護するために広く使われている。
文字、音声、ビデオ、画像に基づく光学文字認識(OCR)は、Captchaの作成に使用される。
テキストベースのocr captchaはcaptchaで最もよく使われており、複雑で歪んだコンテンツという問題に直面している。
機械学習とニューラルネットワークを使用してcaptcha検出と分類ベースのシステムを構築する試みがあり、正確性のために調整する必要がある。
既存のシステムは、歪んだ文字の認識、可変長のcaptchaの扱い、Captchaのシーケンシャルな依存関係の発見に課題に直面している。
本研究では,コネクショニスト時間的分類損失に基づくテキストcaptcha分類のためのセグメンテーションフリーなocrモデルを提案する。
提案されたモデルは、公開可能なCaptchaデータセットでトレーニングされ、テストされる。
提案モデルは99.80\%の文字レベルの精度と95\%の単語レベルの精度を持つ。
提案モデルの精度を最先端モデルと比較し,有効であることを示す。
可変長複素カプチャは、セグメンテーションのない接続型時間的分類損失技術で処理でき、依存関係はソフトウェアシステムの確保に大きく利用される。
関連論文リスト
- Breaking reCAPTCHAv2 [20.706469085872516]
画像分割と分類のための高度なYOLOモデルを用いて,キャプチャの解法における自動システムの有効性を評価する。
以上の結果から,reCAPTCHAv2のキャプチャを通過させるためには,人間とボットが解決しなければならない課題の数に有意な差はないことが示唆された。
論文 参考訳(メタデータ) (2024-09-13T13:47:12Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - Diff-CAPTCHA: An Image-based CAPTCHA with Security Enhanced by Denoising
Diffusion Model [2.1551899143698328]
Diff-CAPTCHAは拡散モデルに基づく画像クリック型CAPTCHAスキームである。
本稿では,Faster R-CNNに基づくエンドツーエンドアタックや2段階アタックなど,いくつかの攻撃手法を開発する。
その結果, 拡散モデルによりCAPTCHAの安全性が向上し, 良好なユーザビリティが維持できることが示唆された。
論文 参考訳(メタデータ) (2023-08-16T13:41:29Z) - Context Perception Parallel Decoder for Scene Text Recognition [52.620841341333524]
シーンテキスト認識手法は高い精度と高速な推論速度を達成するのに苦労している。
本稿では、STRにおけるARデコーディングの実証的研究を行い、ARデコーダが言語文脈をモデル化するだけでなく、視覚的文脈知覚のガイダンスも提供することを明らかにする。
我々は一連のCPPDモデルを構築し、提案したモジュールを既存のSTRデコーダにプラグインする。英語と中国語のベンチマーク実験により、CPPDモデルはARベースモデルよりも約8倍高速に動作し、高い競争精度を達成できることを示した。
論文 参考訳(メタデータ) (2023-07-23T09:04:13Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - Vulnerability analysis of captcha using Deep learning [0.0]
本研究ではCAPTCHA生成システムの欠陥と脆弱性について検討する。
これを実現するために、我々は畳み込みニューラルネットワークであるCapNetを開発した。
提案プラットフォームは,数値およびアルファ数値CAPTCHAの両方を評価することができる
論文 参考訳(メタデータ) (2023-02-18T17:45:11Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Robust Text CAPTCHAs Using Adversarial Examples [129.29523847765952]
Robust Text CAPTCHA (RTC) という,ユーザフレンドリーなテキストベースのCAPTCHA生成法を提案する。
第1段階では、前景と背景はランダムにサンプルされたフォントと背景画像で構成される。
第2段階では、CAPTCHAの解法をより妨害するために、高転送可能な逆攻撃をテキストCAPTCHAに適用する。
論文 参考訳(メタデータ) (2021-01-07T11:03:07Z) - Deep-CAPTCHA: a deep learning based CAPTCHA solver for vulnerability
assessment [1.027974860479791]
本研究では,CAPTCHAジェネレータシステムの弱点と脆弱性について検討する。
この目的を達成するために,Deep-CAPTCHAと呼ばれる畳み込みニューラルネットワークを開発した。
我々のネットワークのクラック精度は、数値およびアルファ数値テストデータセットの98.94%と98.31%のハイレートにつながる。
論文 参考訳(メタデータ) (2020-06-15T11:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。