論文の概要: Real-Time Text Detection and Recognition
- arxiv url: http://arxiv.org/abs/2011.00380v1
- Date: Sat, 31 Oct 2020 22:36:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 05:04:26.329445
- Title: Real-Time Text Detection and Recognition
- Title(参考訳): リアルタイムテキスト検出と認識
- Authors: Shuonan Pei, Mingzhi Zhu
- Abstract要約: 本稿では,3大分野におけるリアルタイムテキストの検出と認識の話題について述べる。
我々は,産業力,高精度,リアルタイムテキスト検出・認識ツールを提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inrecentyears,ConvolutionalNeuralNet-work(CNN) is quite a popular topic, as
it is a powerful andintelligent technique that can be applied in various
fields.The YOLO is a technique that uses the algorithms for real-time text
detection tasks. However, issues like, photometricdistortion and geometric
distortion, could affect the systemYOLO accuracy and cause system failure.
Therefore, thereare improvements that can make the system work better. Inthis
paper, we are going to present our solution - a potentialsolution of a fast and
accurate real-time text direction andrecognition system. The paper covers the
topic of Real-TimeText detection and recognition in three major areas: 1.
videoand image preprocess, 2. Text detection, 3. Text recognition. Asa mature
technique, there are many existing methods that canpotentially improve the
solution. We will go through some ofthose existing methods in the literature
review session. In thisway, we are presenting an industrial strength,
high-accuracy,Real-Time Text Detection and recognition tool.
- Abstract(参考訳): 畳み込みニューロネットワーク(convolutionalneuralnet-work, cnn)は,様々な分野に適用可能な強力で知的な技術であり,リアルタイムテキスト検出タスクにアルゴリズムを使用する技術である。
しかし、測光歪みや幾何歪みといった問題はシステムYOLOの精度に影響を与え、システム障害を引き起こす可能性がある。
したがって、システムをより良くするための改善がある。
本稿では,高速かつ高精度なテキスト方向認識システムの実現の可能性について述べる。
本稿は,3つの主要な領域におけるリアルタイムテキスト検出と認識について述べる。
1.ビデオと画像前処理
2.テキスト検出
3. テキスト認識。
アサ成熟技術は、ソリューションを潜在的に改善する多くの方法が存在する。
文献レビューセッションでは、既存の方法をいくつか紹介します。
そこで本稿では,産業的な強み,高精度,リアルタイムテキスト検出・認識ツールを提案する。
関連論文リスト
- LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection [87.43727192273772]
テキストが人間の書いたものなのか、機械で作られたものなのかを判断するのは、しばしば困難である。
細粒度検出のためのLLM-DetectAIveを提案する。
i) 人書き、ii) 機械生成、(iii) 機械書、次いで機械書、(iv) 人書き、そして機械ポリッシュの4つのカテゴリをサポートする。
論文 参考訳(メタデータ) (2024-08-08T07:43:17Z) - Best Practices for a Handwritten Text Recognition System [8.334691351242753]
近年,手書き文字認識が急速に進歩している。
小さな前処理素子が変更されても、性能の非自明な偏差を検出することができる。
この研究は、手書き文字認識システムのトレーニングと優れたパフォーマンスを提供するための、シンプルで効果的な経験的実践を強調している。
論文 参考訳(メタデータ) (2024-04-17T13:00:05Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - DetectLLM: Leveraging Log Rank Information for Zero-Shot Detection of
Machine-Generated Text [26.02072055825044]
ログランク情報を利用して、機械生成テキストを検出する新しいゼロショット手法を2つ導入する。
ひとつは高速で効率のよい DetectLLM-LRR で、もうひとつは DetectLLM-NPR と呼ばれ、より正確だが摂動が必要なため遅い。
3つのデータセットと7つの言語モデルによる実験により,提案手法は3.9点,1.75点のAUROC点を絶対的に改善することを確認した。
論文 参考訳(メタデータ) (2023-05-23T11:18:30Z) - Real-time End-to-End Video Text Spotter with Contrastive Representation
Learning [91.15406440999939]
Contrastive Representation Learning (CoText) を用いたリアルタイムエンドツーエンドビデオテキストスポッターを提案する。
CoTextは3つのタスク(テキストの検出、追跡、認識など)を、リアルタイムのエンドツーエンドのトレーニング可能なフレームワークで同時に処理する。
シンプルで軽量なアーキテクチャは、効率的かつ正確なパフォーマンスのために設計されている。
論文 参考訳(メタデータ) (2022-07-18T07:54:17Z) - Implicit Feature Alignment: Learn to Convert Text Recognizer to Text
Spotter [38.4211220941874]
我々はIFA(Implicit Feature Alignment)と呼ばれるシンプルでエレガントで効果的なパラダイムを提案する。
IFAは、現在のテキスト認識器に容易に統合でき、その結果、IFA推論と呼ばれる新しい推論機構が生まれる。
IFAは、エンドツーエンドの文書認識タスクにおいて最先端のパフォーマンスを達成することを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-10T17:06:28Z) - MT: Multi-Perspective Feature Learning Network for Scene Text Detection [9.282254601960613]
軽量検出フレームワークは、高い検出精度を維持しつつ推論プロセスを高速化するように設計されている。
マスクを正確にセグメンテーションするための識別表現をより正確に学習するために,マルチパースペクティブな特徴モジュールを提案する。
MTの有効性を実世界の4つのシーンテキストデータセットで評価した。
論文 参考訳(メタデータ) (2021-05-12T06:41:34Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z) - MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。
具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。
信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文 参考訳(メタデータ) (2021-04-02T14:34:41Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。