論文の概要: Impact of Automatic Image Classification and Blind Deconvolution in
Improving Text Detection Performance of the CRAFT Algorithm
- arxiv url: http://arxiv.org/abs/2211.15999v1
- Date: Tue, 29 Nov 2022 07:49:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 15:18:44.301472
- Title: Impact of Automatic Image Classification and Blind Deconvolution in
Improving Text Detection Performance of the CRAFT Algorithm
- Title(参考訳): CRAFTアルゴリズムのテキスト検出性能向上における画像の自動分類とブラインドデコンボリューションの影響
- Authors: Clarisa V. Albarillo and Proceso L. Fernandez Jr
- Abstract要約: 本研究では,CRAFTのテキスト検出性能を高めるために,画像前処理における自動画像分類とブラインドデコンボリューションの影響について検討した。
提案手法は,100のラプラシアン演算子をしきい値として利用することにより,シーンイメージをぼかしと非青色の2つのカテゴリに自動的に分類する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text detection in natural scenes has been a significant and active research
subject in computer vision and document analysis because of its wide range of
applications as evidenced by the emergence of the Robust Reading Competition.
One of the algorithms which has good text detection performance in the said
competition is the Character Region Awareness for Text Detection (CRAFT).
Employing the ICDAR 2013 dataset, this study investigates the impact of
automatic image classification and blind deconvolution as image pre-processing
steps to further enhance the text detection performance of CRAFT. The proposed
technique automatically classifies the scene images into two categories, blurry
and non-blurry, by utilizing of a Laplacian operator with 100 as threshold.
Prior to applying the CRAFT algorithm, images that are categorized as blurry
are further pre-processed using blind deconvolution to reduce the blur. The
results revealed that the proposed method significantly enhanced the detection
performance of CRAFT, as demonstrated by its IoU h-mean of 94.47% compared to
the original 91.42% h-mean of CRAFT and this even outperformed the top-ranked
SenseTime, whose h-mean is 93.62%.
- Abstract(参考訳): 自然場面におけるテキスト検出は、ロバストな読解競争の出現によって証明された幅広い応用により、コンピュータビジョンや文書分析において重要かつ活発な研究対象となっている。
このコンペティションで優れたテキスト検出性能を持つアルゴリズムの1つは、テキスト検出のための文字領域認識(craft)である。
本研究は,icdar 2013データセットを用いて,画像の前処理ステップとして自動画像分類とブラインドデコンボリューションの影響を調査し,クラフトのテキスト検出性能をさらに向上させる。
提案手法は,100のラプラシアン演算子をしきい値として利用することにより,シーン画像を自動的に2つのカテゴリに分類する。
CRAFTアルゴリズムを適用する前に、ぼかしとして分類された画像は、さらにブラインドデコンボリューションを用いて前処理され、ぼかしを減らす。
その結果、CRAFTの91.42%のH平均よりも94.47%のIoU h平均で示されるように、提案手法はCRAFTの検知性能を大幅に向上させ、その結果、93.62%のSenseTimeよりも優れていた。
関連論文リスト
- Semi-Truths: A Large-Scale Dataset of AI-Augmented Images for Evaluating Robustness of AI-Generated Image detectors [62.63467652611788]
実画像27,600枚、223,400枚、AI拡張画像1,472,700枚を含むSEMI-TRUTHSを紹介する。
それぞれの画像には、検出器のロバスト性の標準化と目標評価のためのメタデータが添付されている。
以上の結果から,現状の検出器は摂動の種類や程度,データ分布,拡張方法に様々な感度を示すことが示唆された。
論文 参考訳(メタデータ) (2024-11-12T01:17:27Z) - CLIPC8: Face liveness detection algorithm based on image-text pairs and
contrastive learning [3.90443799528247]
画像テキストペアとコントラスト学習に基づく顔の生存度検出手法を提案する。
提案手法は,特定のシナリオにおいて,特定の生きた攻撃行動を効果的に検出することができる。
また、印刷写真攻撃やスクリーンリメイク攻撃などの従来の生きた攻撃方法の検出にも有効である。
論文 参考訳(メタデータ) (2023-11-29T12:21:42Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z) - Deep Semantic Statistics Matching (D2SM) Denoising Network [70.01091467628068]
本稿では,Deep Semantic Statistics Matching (D2SM) Denoising Networkを紹介する。
事前訓練された分類ネットワークの意味的特徴を利用して、意味的特徴空間における明瞭な画像の確率的分布と暗黙的に一致させる。
識別画像のセマンティックな分布を学習することで,ネットワークの認知能力を大幅に向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2022-07-19T14:35:42Z) - Hierarchical Similarity Learning for Aliasing Suppression Image
Super-Resolution [64.15915577164894]
エイリアスの影響を抑制するために階層画像超解像ネットワーク(HSRNet)を提案する。
HSRNetは、他の作品よりも定量的かつ視覚的なパフォーマンスを向上し、エイリアスをより効果的に再送信する。
論文 参考訳(メタデータ) (2022-06-07T14:55:32Z) - Influence of image noise on crack detection performance of deep
convolutional neural networks [0.0]
深層畳み込みニューラルネットワークを用いた画像データからのひび割れの分類について多くの研究がなされている。
本稿では,画像ノイズがネットワークの精度に与える影響について検討する。
AlexNetは提案したインデックスに基づいて最も効率的なモデルに選ばれた。
論文 参考訳(メタデータ) (2021-11-03T09:08:54Z) - Hierarchical Convolutional Neural Network with Feature Preservation and
Autotuned Thresholding for Crack Detection [5.735035463793008]
ドローンの画像はインフラ表面の欠陥の自動検査にますます使われている。
本稿では,階層型畳み込みニューラルネットワークを用いた深層学習手法を提案する。
提案手法は, 道路, 橋, 舗装の表面ひび割れの同定に応用されている。
論文 参考訳(メタデータ) (2021-04-21T13:07:58Z) - Unconstrained Face Recognition using ASURF and Cloud-Forest Classifier
optimized with VLAD [0.0]
本稿では, 画像の翻訳, 回転, スケール, 色, 照明, アフィン歪みに制約される多クラス顔画像分類のための計算効率の高いアルゴリズムを提案する。
提案手法は,顔認識システムにおける精度と時間を改善することを目的としている。
論文 参考訳(メタデータ) (2021-04-02T01:26:26Z) - UC-Net: Uncertainty Inspired RGB-D Saliency Detection via Conditional
Variational Autoencoders [81.5490760424213]
データラベリングプロセスから学習することで、RGB-Dサリエンシ検出に不確実性を利用するための第1のフレームワーク(UCNet)を提案する。
そこで本研究では,サリエンシデータラベリングにヒントを得て,確率的RGB-Dサリエンシ検出ネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-13T04:12:59Z) - Efficient Scene Text Detection with Textual Attention Tower [31.08709218937391]
シーン画像中の多目的テキストを効率よく正確に検出する手法を提案する。
偽陽性検出を抑制するための自己注意機構が採用されている。
論文 参考訳(メタデータ) (2020-01-30T09:50:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。