論文の概要: Scale-Invariant Multi-Oriented Text Detection in Wild Scene Images
- arxiv url: http://arxiv.org/abs/2002.06423v1
- Date: Sat, 15 Feb 2020 18:34:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 23:09:09.409544
- Title: Scale-Invariant Multi-Oriented Text Detection in Wild Scene Images
- Title(参考訳): ワイルドシーン画像におけるスケール不変多方向テキスト検出
- Authors: Kinjal Dasgupta, Sudip Das, Ujjwal Bhattacharya
- Abstract要約: 我々は、新しい特徴表現ブロック(FRB)からなる完全な畳み込みニューラルネットワークアーキテクチャを提案する。
提案するネットワークは,画像サンプルの難易度と段階的画素単位のぼかしに関して,カリキュラム学習を用いて訓練されている。
複数の可能なソースからぼやけたスケールや向きの異なるテキストを検出することができる。
- 参考スコア(独自算出の注目度): 0.8121462458089141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic detection of scene texts in the wild is a challenging problem,
particularly due to the difficulties in handling (i) occlusions of varying
percentages, (ii) widely different scales and orientations, (iii) severe
degradations in the image quality etc. In this article, we propose a fully
convolutional neural network architecture consisting of a novel Feature
Representation Block (FRB) capable of efficient abstraction of information. The
proposed network has been trained using curriculum learning with respect to
difficulties in image samples and gradual pixel-wise blurring. It is capable of
detecting texts of different scales and orientations suffered by blurring from
multiple possible sources, non-uniform illumination as well as partial
occlusions of varying percentages. Text detection performance of the proposed
framework on various benchmark sample databases including ICDAR 2015, ICDAR
2017 MLT, COCO-Text and MSRA-TD500 improves respective state-of-the-art results
significantly. Source code of the proposed architecture will be made available
at github.
- Abstract(参考訳): 野生環境におけるシーンテキストの自動検出は,特に処理の困難さから難しい課題である
(i)異なる割合の閉塞
(ii)規模や方向が広く異なること。
(iii)画質等が著しく低下すること。
本稿では,情報の効率的な抽象化が可能な新しい特徴表現ブロック(FRB)からなる,完全な畳み込みニューラルネットワークアーキテクチャを提案する。
提案するネットワークは,画像サンプルの難易度と段階的画素単位のぼかしに関するカリキュラム学習を用いて訓練されている。
複数の可能なソースからぼやけているようなスケールや向きの異なるテキストや、一様でない照明、および様々なパーセンテージの部分的閉塞を検出することができる。
ICDAR 2015, ICDAR 2017 MLT, COCO-Text, MSRA-TD500など, 様々なベンチマークサンプルデータベース上でのフレームワークのテキスト検出性能は, それぞれの最先端結果を大幅に改善する。
提案されたアーキテクチャのソースコードはgithub.comで入手できる。
関連論文リスト
- Learning deep illumination-robust features from multispectral filter array images [0.5439020425819]
本稿では, 原画像から直接, 識別的・照明的特徴を学習するための独自のアプローチを提案する。
MS画像分類実験により,本手法は手工芸法と近年の深層学習法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-07-22T08:35:41Z) - TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。
テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。
私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文 参考訳(メタデータ) (2024-04-15T13:54:35Z) - Research on Multilingual Natural Scene Text Detection Algorithm [4.514028820667202]
自然界における多言語テキストの検出において,低精度と高難易度の問題に対処する多言語テキスト検出モデルを提案する。
そこで我々は,SFM Swin Transformer機能抽出ネットワークを導入し,異なる言語にわたる文字やフォントの検出において,モデルの堅牢性を高める。
そこで本研究では,より効率的なテキスト検出のためのグローバルな特徴を抽出し,保存するグローバルセマンティックブランチを提案する。
論文 参考訳(メタデータ) (2023-12-18T12:46:35Z) - Toward Real Text Manipulation Detection: New Dataset and New Solution [58.557504531896704]
プロフェッショナルなテキスト操作に関連する高コストは、現実世界のデータセットの可用性を制限する。
本稿では,14,250枚のテキスト画像を含むリアルテキスト操作データセットを提案する。
我々のコントリビューションは、実世界のテキスト改ざん検出の進歩を促進することを目的としている。
論文 参考訳(メタデータ) (2023-12-12T02:10:16Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z) - Text Reading Order in Uncontrolled Conditions by Sparse Graph
Segmentation [71.40119152422295]
テキストの読み出し順序を識別するための軽量でスケーラブルで一般化可能なアプローチを提案する。
モデルは言語に依存しず、多言語データセットで効果的に実行される。
モバイルデバイスを含むあらゆるプラットフォームにデプロイできるほど小さい。
論文 参考訳(メタデータ) (2023-05-04T06:21:00Z) - Scene Change Detection Using Multiscale Cascade Residual Convolutional
Neural Networks [0.0]
シーン変化検出は、デジタル画像の画素を前景と背景領域に分割する処理問題である。
本研究では,Residual Processing Moduleを統合した畳み込みニューラルネットワークを用いた新しいマルチスケールResidual Processing Moduleを提案する。
2つの異なるデータセットで実施された実験は、提案手法の全体的な有効性をサポートし、それぞれが$boldsymbol0.9622$と$boldsymbol0.9664$ over Change Detection 2014とPetrobrasROUTESデータセットの全体的な有効性を達成する。
論文 参考訳(メタデータ) (2022-12-20T16:48:51Z) - Joint Learning of Deep Texture and High-Frequency Features for
Computer-Generated Image Detection [24.098604827919203]
本稿では,CG画像検出のための深いテクスチャと高周波特徴を有する共同学習戦略を提案する。
セマンティックセグメンテーションマップを生成して、アフィン変換操作を誘導する。
原画像と原画像の高周波成分の組み合わせを、注意機構を備えたマルチブランチニューラルネットワークに供給する。
論文 参考訳(メタデータ) (2022-09-07T17:30:40Z) - Image Search with Text Feedback by Additive Attention Compositional
Learning [1.4395184780210915]
本稿では,深層ニューラルネットワークにシームレスに接続可能な付加的注意に基づく画像テキスト合成モジュールを提案する。
AACLは3つの大規模データセット(FashionIQ、Fashion200k、Shopping100k)で評価される
論文 参考訳(メタデータ) (2022-03-08T02:03:49Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。