論文の概要: Geometric Perception based Efficient Text Recognition
- arxiv url: http://arxiv.org/abs/2302.03873v1
- Date: Wed, 8 Feb 2023 04:19:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 17:24:17.882034
- Title: Geometric Perception based Efficient Text Recognition
- Title(参考訳): 幾何学的知覚に基づく効率的なテキスト認識
- Authors: P.N.Deelaka, D.R.Jayakodi, D.Y.Silva
- Abstract要約: 固定されたカメラ位置を持つ現実世界のアプリケーションでは、基礎となるデータは通常のシーンテキストであることが多い。
本稿では, 基礎となる概念, 理論, 実装, 実験結果を紹介する。
本稿では,現在ある幾何学的特徴のみを用いて,通常のシーン画像中の数字を識別するように訓練された新しいディープラーニングアーキテクチャ(GeoTRNet)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Every Scene Text Recognition (STR) task consists of text localization \& text
recognition as the prominent sub-tasks. However, in real-world applications
with fixed camera positions such as equipment monitor reading, image-based data
entry, and printed document data extraction, the underlying data tends to be
regular scene text. Hence, in these tasks, the use of generic, bulky models
comes up with significant disadvantages compared to customized, efficient
models in terms of model deployability, data privacy \& model reliability.
Therefore, this paper introduces the underlying concepts, theory,
implementation, and experiment results to develop models, which are highly
specialized for the task itself, to achieve not only the SOTA performance but
also to have minimal model weights, shorter inference time, and high model
reliability. We introduce a novel deep learning architecture (GeoTRNet),
trained to identify digits in a regular scene image, only using the geometrical
features present, mimicking human perception over text recognition. The code is
publicly available at https://github.com/ACRA-FL/GeoTRNet
- Abstract(参考訳): 全てのScene Text Recognition (STR)タスクは、テキストローカライゼーション \とテキスト認識を主要なサブタスクとする。
しかし,機器モニタ,画像ベースデータ入力,印刷された文書データ抽出などの固定されたカメラ位置を持つ現実のアプリケーションでは,その基礎となるデータは通常のシーンテキストであることが多い。
したがって、これらのタスクでは、モデルデプロイ容易性、データプライバシ \&モデルの信頼性の観点から、カスタマイズされた効率的なモデルと比較して、汎用的でバルクなモデルの使用には大きな欠点がある。
そこで本研究では,SOTAの性能だけでなく,モデル重みの最小化,推論時間短縮,モデル信頼性の向上などを実現するため,タスク自体に高度に特化しているモデルを開発するための基礎概念,理論,実装,実験結果を紹介する。
テキスト認識よりも人間の知覚を模倣した幾何学的特徴のみを用いて,通常のシーン画像中の数字を識別する新しいディープラーニングアーキテクチャ(GeoTRNet)を導入する。
コードはhttps://github.com/ACRA-FL/GeoTRNetで公開されている。
関連論文リスト
- UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Chart-RCNN: Efficient Line Chart Data Extraction from Camera Images [0.0]
ラインチャートデータ抽出は光学文字認識の自然な拡張である。
本稿では,テキストラベル,マーク座標,視点推定を同時に出力する合成データ生成フレームワークとワンステージモデルを提案する。
以上の結果から,合成データのみをトレーニングしたモデルは,微調整なしで実画像に適用可能であり,実世界の応用に有効であることが示唆された。
論文 参考訳(メタデータ) (2022-11-25T19:55:52Z) - InDiReCT: Language-Guided Zero-Shot Deep Metric Learning for Images [4.544151613454639]
アプリケーションによって、画像検索システムの利用者は異なる概念を持ち、類似性も変化していると論じる。
本稿では,Language-Guided Zero-Shot Deep Metric Learning (LanZ-DML) を新しいDML設定として提示する。
InDiReCTは、トレーニングにいくつかのテキストプロンプトのみを使用する画像上のLanZ-DMLのモデルである。
論文 参考訳(メタデータ) (2022-11-23T08:09:50Z) - The Surprisingly Straightforward Scene Text Removal Method With Gated
Attention and Region of Interest Generation: A Comprehensive Prominent Model
Analysis [0.76146285961466]
STR(Scene text removal)は、自然のシーン画像からテキストを消去するタスクである。
本稿では,シンプルなかつ極めて効果的なGated Attention(GA)手法とRerea-of-Interest Generation(RoIG)手法を紹介する。
ベンチマークデータを用いた実験結果から,提案手法は既存の最先端手法よりもほぼすべての指標で有意に優れていた。
論文 参考訳(メタデータ) (2022-10-14T03:34:21Z) - ASIF: Coupled Data Turns Unimodal Models to Multimodal Without Training [29.240131406803794]
単一のドメインエンコーダとより少ない画像テキストペアを用いて、トレーニングを一切行わずに共通空間を作成することができることを示す。
私たちのモデルにはユニークな特性があり、特に注目すべきは、新しいバージョンをデプロイして、更新されたトレーニングサンプルを数秒で実行できることです。
論文 参考訳(メタデータ) (2022-10-04T16:56:22Z) - GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。
われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文 参考訳(メタデータ) (2022-05-27T17:03:38Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z) - TLGAN: document Text Localization using Generative Adversarial Nets [2.1378501793514277]
デジタル画像からのテキストローカライゼーションは、光学的文字認識の第一ステップである。
ディープニューラルネットワークは、デジタル画像からテキストローカライゼーションを行うために使用される。
Robust Reading Challenge on Scanned Receipts OCR and Information extractのラベル付きレシートイメージは10個しかない。
TLGANはSROIEテストデータに対して99.83%の精度と99.64%のリコールを達成した。
論文 参考訳(メタデータ) (2020-10-22T09:19:13Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。