論文の概要: UPOCR: Towards Unified Pixel-Level OCR Interface
- arxiv url: http://arxiv.org/abs/2312.02694v1
- Date: Tue, 5 Dec 2023 11:53:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 15:55:47.785215
- Title: UPOCR: Towards Unified Pixel-Level OCR Interface
- Title(参考訳): UPOCR: 統一されたPixel-Level OCRインターフェースを目指して
- Authors: Dezhi Peng, Zhenhua Yang, Jiaxin Zhang, Chongyu Liu, Yongxin Shi, Kai
Ding, Fengjun Guo, Lianwen Jin
- Abstract要約: We propose UPOCR, a simple-yet- effective generalist model for Unified Pixel-level OCR interface。
具体的には,多様なOCRタスクのパラダイムをイメージ・ツー・イメージ変換として,アーキテクチャを視覚変換器(ViT)ベースのエンコーダ・デコーダとして統一する。
テキスト除去、テキストセグメンテーション、改ざんテキスト検出を含む3つの画素レベルのOCRタスクで実験を行った。
- 参考スコア(独自算出の注目度): 36.966005829678124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the optical character recognition (OCR) field has been
proliferating with plentiful cutting-edge approaches for a wide spectrum of
tasks. However, these approaches are task-specifically designed with divergent
paradigms, architectures, and training strategies, which significantly
increases the complexity of research and maintenance and hinders the fast
deployment in applications. To this end, we propose UPOCR, a
simple-yet-effective generalist model for Unified Pixel-level OCR interface.
Specifically, the UPOCR unifies the paradigm of diverse OCR tasks as
image-to-image transformation and the architecture as a vision Transformer
(ViT)-based encoder-decoder. Learnable task prompts are introduced to push the
general feature representations extracted by the encoder toward task-specific
spaces, endowing the decoder with task awareness. Moreover, the model training
is uniformly aimed at minimizing the discrepancy between the generated and
ground-truth images regardless of the inhomogeneity among tasks. Experiments
are conducted on three pixel-level OCR tasks including text removal, text
segmentation, and tampered text detection. Without bells and whistles, the
experimental results showcase that the proposed method can simultaneously
achieve state-of-the-art performance on three tasks with a unified single
model, which provides valuable strategies and insights for future research on
generalist OCR models. Code will be publicly available.
- Abstract(参考訳): 近年、光学文字認識(OCR)分野は、幅広いタスクに対して、多彩な最先端アプローチで発展してきた。
しかし、これらのアプローチは異なるパラダイム、アーキテクチャ、トレーニング戦略でタスク特化設計されており、研究とメンテナンスの複雑さを著しく増加させ、アプリケーションの迅速なデプロイを妨げる。
そこで本研究では,統一PixelレベルのOCRインタフェースの汎用モデルであるUPOCRを提案する。
具体的には,多様なOCRタスクのパラダイムをイメージ・ツー・イメージ変換として,アーキテクチャを視覚変換器(ViT)ベースのエンコーダ・デコーダとして統一する。
学習可能なタスクプロンプトを導入して、エンコーダが抽出した一般的な特徴表現をタスク固有の空間にプッシュし、デコーダにタスク認識を与える。
また、モデルトレーニングは、タスク間の不均一性によらず、生成画像と地中画像の相違を最小限に抑えることを目的としている。
テキスト除去、テキストセグメンテーション、改ざんテキスト検出を含む3つの画素レベルのOCRタスクで実験を行った。
ベルとホイッスルがなければ,提案手法は統一された単一モデルで3つのタスクの最先端性能を同時に達成できることを示し,一般のOCRモデルの研究に有用な戦略と洞察を提供する。
コードは公開されます。
関連論文リスト
- Adversarial Training with OCR Modality Perturbation for Scene-Text Visual Question Answering [8.382903851560595]
Scene-Text Visual Question Answering (ST-VQA) は、画像中のシーンテキストを理解し、テキストコンテンツに関連する質問に答えることを目的としている。
既存の手法の多くは光学文字認識(OCR)システムの精度に大きく依存している。
本研究では,空間認識機能を備えたマルチモーダル対向学習アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-14T11:22:06Z) - Instruction-Guided Scene Text Recognition [55.631064880636714]
本稿では、STRを命令学習問題として定式化する新しいパラダイムを提案する。
我々は,効果的なクロスモーダル学習を実現するために,命令誘導型シーンテキスト認識(IGTR)を提案する。
論文 参考訳(メタデータ) (2024-01-31T14:13:01Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - Low-Resolution Self-Attention for Semantic Segmentation [96.81482872022237]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - C3-STISR: Scene Text Image Super-resolution with Triple Clues [22.41802601665541]
Scene text image super- resolution (STISR) は、テキスト認識のための重要な前処理タスクとみなされている。
最近のアプローチでは、認識者のフィードバックを超解像を導く手がかりとして用いている。
超解像誘導のための手がかりとして,認識者のフィードバック,視覚情報,言語情報を共同で活用する新しい手法C3-STISRを提案する。
論文 参考訳(メタデータ) (2022-04-29T12:39:51Z) - SeqTR: A Simple yet Universal Network for Visual Grounding [88.03253818868204]
本稿では,視覚的接地作業のためのシンプルな汎用ネットワークSeqTRを提案する。
画像とテキストの入力を条件とした点予測問題として,視覚的グラウンドリングを行った。
このパラダイムの下では、視覚的なグラウンドタスクはタスク固有のブランチやヘッドなしでSeqTRネットワークに統合されます。
論文 参考訳(メタデータ) (2022-03-30T12:52:46Z) - Donut: Document Understanding Transformer without OCR [17.397447819420695]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。
提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-30T18:55:19Z) - TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance [15.72669617789124]
シーンテキスト認識(STR)は画像とテキストの間の重要なブリッジである。
最近の手法では、凍結初期埋め込みを使用してデコーダを誘導し、特徴をテキストにデコードし、精度が低下する。
TRansformer-based text recognizer with Initial embeddeding Guidance (TRIG) という,テキスト認識のための新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-16T09:10:39Z) - Hierarchical Deep CNN Feature Set-Based Representation Learning for
Robust Cross-Resolution Face Recognition [59.29808528182607]
クロスリゾリューション顔認識(CRFR)は、インテリジェントな監視およびバイオメトリックフォレンジックにおいて重要である。
既存の浅層学習と深層学習に基づく手法は、HR-LR対を共同特徴空間にマッピングすることに焦点を当てている。
本研究では,多レベル深層畳み込みニューラルネットワーク(CNN)の機能を完全に活用し,堅牢なCRFRを実現することを目的とする。
論文 参考訳(メタデータ) (2021-03-25T14:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。