論文の概要: DLoRA-TrOCR: Mixed Text Mode Optical Character Recognition Based On Transformer
- arxiv url: http://arxiv.org/abs/2404.12734v1
- Date: Fri, 19 Apr 2024 09:28:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-04-22 15:36:14.880569
- Title: DLoRA-TrOCR: Mixed Text Mode Optical Character Recognition Based On Transformer
- Title(参考訳): DLoRA-TrOCR:変換器を用いた混合テキストモード光文字認識
- Authors: Da Chang, Yu Li,
- Abstract要約: 複数のフォント、混合シーン、複雑なレイアウトは、従来のOCRモデルの認識精度に深刻な影響を及ぼす。
本稿では,事前学習したOCR変換器,すなわちDLoRA-TrOCRに基づくパラメータ効率の高いハイブリッドテキスト認識手法を提案する。
複雑なシーンデータセット上で、手書きテキスト、印刷テキスト、ストリートビューテキストの同時認識を含む最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 12.966765239586994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the continuous development of OCR technology and the expansion of application fields, text recognition in complex scenes has become a key challenge. Factors such as multiple fonts, mixed scenes and complex layouts seriously affect the recognition accuracy of traditional OCR models. Although OCR models based on deep learning have performed well in specific fields or similar data sets in recent years, the generalization ability and robustness of the model are still a big challenge when facing complex environments with multiple scenes. Furthermore, training an OCR model from scratch or fine-tuning all parameters is very demanding on computing resources and inference time, which limits the flexibility of its application. This study focuses on a fundamental aspect of mixed text recognition in response to the challenges mentioned above, which involves effectively fine-tuning the pre-trained basic OCR model to demonstrate exceptional performance across various downstream tasks. To this end, we propose a parameter-efficient hybrid text recognition method based on pre-trained OCR Transformer, namely DLoRA-TrOCR. This method embeds DoRA into the image encoder and LoRA into the internal structure of the text decoder, enabling efficient parameter fine-tuning for downstream tasks. Experimental results show that compared to similar parameter adjustment methods, our model DLoRA-TrOCR has the smallest number of parameters and performs better. It can achieve state-of-the-art performance on complex scene data sets involving simultaneous recognition of mixed handwritten, printed and street view texts.
- Abstract(参考訳): OCR技術の継続的な発展とアプリケーション分野の拡大により、複雑な場面におけるテキスト認識は重要な課題となっている。
複数のフォント、混合シーン、複雑なレイアウトなどの要因は、従来のOCRモデルの認識精度に深刻な影響を及ぼす。
近年、ディープラーニングに基づくOCRモデルは、特定の分野や類似のデータセットでよく機能しているが、複数のシーンを持つ複雑な環境に直面する場合、モデルの一般化能力と堅牢性は依然として大きな課題である。
さらに、すべてのパラメータのスクラッチや微調整からOCRモデルをトレーニングすることは、コンピューティングリソースと推論時間に非常に要求されるため、アプリケーションの柔軟性が制限される。
本研究は、上記課題に対応する混合テキスト認識の基本的側面に焦点を当て、様々な下流タスクにおける例外的な性能を示すために、事前学習された基本OCRモデルを効果的に微調整することを含む。
そこで本研究では,事前学習したOCR変換器,すなわちDLoRA-TrOCRに基づくパラメータ効率の高いハイブリッドテキスト認識手法を提案する。
この方法は、DRAを画像エンコーダとLoRAをテキストデコーダの内部構造に埋め込むことで、下流タスクの効率的なパラメータの微調整を可能にする。
実験結果から, DLoRA-TrOCR はパラメータの最小値であり, 性能が向上していることがわかった。
複雑なシーンデータセット上で、手書きテキスト、印刷テキスト、ストリートビューテキストの同時認識を含む最先端のパフォーマンスを実現する。
関連論文リスト
- A Lightweight Multi-Module Fusion Approach for Korean Character Recognition [0.0]
SDA-Netは、堅牢な単一文字認識のための軽量で効率的なアーキテクチャである。
挑戦的なOCRベンチマークで最先端の精度を実現し、推論が大幅に高速になる。
論文 参考訳(メタデータ) (2025-04-08T07:50:19Z) - Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval [49.669503570350166]
生成情報検索(GenIR)は、文書識別子(ドシデント)生成タスクとして文書検索を定式化する有望なニューラル検索パラダイムである。
既存のGenIRモデルはトークンレベルのミスアライメントに悩まされており、次のトークンを予測するためにトレーニングされたモデルは、ドキュメントレベルの関連性を効果的にキャプチャできないことが多い。
本稿では,トークンレベルのドシデント生成と文書レベルのドシデンス推定をペアのランク付けによる直接最適化により整合するダイレクトドキュメントレバレンス最適化(DDRO)を提案する。
論文 参考訳(メタデータ) (2025-04-07T15:27:37Z) - VISTA-OCR: Towards generative and interactive end to end OCR models [3.7548609506798494]
VISTA-OCRは、単一の生成モデル内でテキストの検出と認識を統合する軽量アーキテクチャである。
エンコーダ-デコーダアーキテクチャに基づいて構築されたVISTA-OCRは、視覚的特徴抽出フェーズから始まり、徐々に訓練される。
モデルの性能を高めるために、バウンディングボックスアノテーションと合成サンプルで強化された実世界のサンプルからなる新しいデータセットを構築した。
論文 参考訳(メタデータ) (2025-04-04T17:39:53Z) - LMV-RPA: Large Model Voting-based Robotic Process Automation [0.0]
本稿では,OCRを向上する大規模モデル投票型ロボットプロセス自動化システムであるLMV-RPAを紹介する。
LMV-RPAは、Paddle OCR、Tesseract OCR、Easy OCR、DocTRなどのOCRエンジンから出力を統合する。
OCRタスクの99%の精度を実現し、ベースラインモデルの94%を突破し、処理時間を80%削減した。
論文 参考訳(メタデータ) (2024-12-23T20:28:22Z) - See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Adversarial Training with OCR Modality Perturbation for Scene-Text Visual Question Answering [8.382903851560595]
Scene-Text Visual Question Answering (ST-VQA) は、画像中のシーンテキストを理解し、テキストコンテンツに関連する質問に答えることを目的としている。
既存の手法の多くは光学文字認識(OCR)システムの精度に大きく依存している。
本研究では,空間認識機能を備えたマルチモーダル対向学習アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-14T11:22:06Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - SSR-Encoder: Encoding Selective Subject Representation for Subject-Driven Generation [39.84456803546365]
SSRエンコーダ(SSR-Encoder)は、単一のまたは複数の参照画像から任意の対象を選択的にキャプチャするように設計された新しいアーキテクチャである。
テストタイムの微調整を必要とせずに、テキストやマスクなど、さまざまなクエリのモダリティに応答する。
SSRエンコーダはモデルの一般化性と効率によって特徴付けられ、様々なカスタムモデルや制御モジュールに対応している。
論文 参考訳(メタデータ) (2023-12-26T14:39:11Z) - UPOCR: Towards Unified Pixel-Level OCR Interface [36.966005829678124]
We propose UPOCR, a simple-yet- effective generalist model for Unified Pixel-level OCR interface。
具体的には,多様なOCRタスクのパラダイムをイメージ・ツー・イメージ変換として,アーキテクチャを視覚変換器(ViT)ベースのエンコーダ・デコーダとして統一する。
テキスト除去、テキストセグメンテーション、改ざんテキスト検出を含む3つの画素レベルのOCRタスクで実験を行った。
論文 参考訳(メタデータ) (2023-12-05T11:53:17Z) - Turning a CLIP Model into a Scene Text Spotter [73.63953542526917]
我々は,大規模コントラスト言語-画像事前学習(CLIP)モデルの可能性を活用し,シーンテキストの検出とスポッティング作業を強化する。
このバックボーンは、CLIPにおける視覚的プロンプト学習とクロスアテンションを利用して、画像とテキストベースの事前知識を抽出する。
FastTCM-CR50では、画像とテキストの埋め込みのシナジーを高めるために、インスタンス言語マッチングプロセスが導入されている。
論文 参考訳(メタデータ) (2023-08-21T01:25:48Z) - RBSR: Efficient and Flexible Recurrent Network for Burst
Super-Resolution [57.98314517861539]
バースト超解像(BurstSR)は、高解像度(HR)画像を低解像度(LR)画像と雑音画像から再構成することを目的としている。
本稿では,効率よくフレキシブルなリカレントネットワークでフレーム単位のキューを融合させることを提案する。
論文 参考訳(メタデータ) (2023-06-30T12:14:13Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - 3D Rendering Framework for Data Augmentation in Optical Character
Recognition [8.641647607173864]
光文字認識(OCR)のためのデータ拡張フレームワークを提案する。
提案するフレームワークは,新しい視角と照明シナリオを合成することができる。
一般的な Brno Mobile OCR データセットの 15% サブセットを増設することで,フレームワークの性能を実証する。
論文 参考訳(メタデータ) (2022-09-27T19:31:23Z) - PP-OCRv3: More Attempts for the Improvement of Ultra Lightweight OCR
System [11.622321298214043]
PP-OCRv3は、PP-OCRv2に基づいてテキスト検出モデルとテキスト認識モデルを9つの側面でアップグレードする。
実データによる実験では、PP-OCRv3のマハンはPP-OCRv2より5%高い。
論文 参考訳(メタデータ) (2022-06-07T04:33:50Z) - Donut: Document Understanding Transformer without OCR [17.397447819420695]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。
提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-30T18:55:19Z) - TrOCR: Transformer-based Optical Character Recognition with Pre-trained
Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。
TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。
実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-21T16:01:56Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。