論文の概要: Mixed Text Recognition with Efficient Parameter Fine-Tuning and Transformer
- arxiv url: http://arxiv.org/abs/2404.12734v4
- Date: Fri, 09 May 2025 09:14:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:09.934199
- Title: Mixed Text Recognition with Efficient Parameter Fine-Tuning and Transformer
- Title(参考訳): パラメータファインチューニングと変圧器を用いた混合テキスト認識
- Authors: Da Chang, Yu Li,
- Abstract要約: 本稿では,事前学習したOCR変換器に基づくパラメータ効率の高いハイブリッドテキストスポッティング手法であるDLoRA-TrOCRを提案する。
重み分解されたDoRAモジュールを画像エンコーダに、LoRAモジュールをテキストデコーダに埋め込むことで、様々な下流タスクを効率的に微調整することができる。
実験により,提案したDLoRA-TrOCRは,手書き,印刷,ストリートテキストを混合した複雑なシーン認識において,他のパラメータ効率の高い微調整手法よりも優れていた。
- 参考スコア(独自算出の注目度): 12.966765239586994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of OCR technology, mixed-scene text recognition has become a key technical challenge. Although deep learning models have achieved significant results in specific scenarios, their generality and stability still need improvement, and the high demand for computing resources affects flexibility. To address these issues, this paper proposes DLoRA-TrOCR, a parameter-efficient hybrid text spotting method based on a pre-trained OCR Transformer. By embedding a weight-decomposed DoRA module in the image encoder and a LoRA module in the text decoder, this method can be efficiently fine-tuned on various downstream tasks. Our method requires no more than 0.7\% trainable parameters, not only accelerating the training efficiency but also significantly improving the recognition accuracy and cross-dataset generalization performance of the OCR system in mixed text scenes. Experiments show that our proposed DLoRA-TrOCR outperforms other parameter-efficient fine-tuning methods in recognizing complex scenes with mixed handwritten, printed, and street text, achieving a CER of 4.02 on the IAM dataset, a F1 score of 94.29 on the SROIE dataset, and a WAR of 86.70 on the STR Benchmark, reaching state-of-the-art performance.
- Abstract(参考訳): OCR技術の急速な発展に伴い、混在するテキスト認識は重要な技術的課題となっている。
ディープラーニングモデルは特定のシナリオにおいて大きな成果を上げているが、その一般化と安定性は依然として改善を必要とし、コンピューティングリソースに対する高い需要は柔軟性に影響を与える。
そこで本研究では,OCRトランスを用いたパラメータ効率の高いハイブリッドテキストスポッティング手法であるDLoRA-TrOCRを提案する。
重み分解されたDoRAモジュールを画像エンコーダに、LoRAモジュールをテキストデコーダに埋め込むことで、様々な下流タスクを効率的に微調整することができる。
本手法では,訓練効率を向上するだけでなく,テキスト混在場面におけるOCRシステムの認識精度とデータセット間一般化性能を大幅に向上させるため,0.7 %以上のトレーニング可能なパラメータを必要としない。
実験の結果,提案したDLoRA-TrOCRは,手書き,印刷,ストリートテキストの混在した複雑なシーンの認識,IAMデータセットで4.02のCER,SROIEデータセットで94.29のF1スコア,STRベンチマークで86.70のWARなど,他のパラメータ効率の高い微調整手法よりも優れており,その性能は高いことがわかった。
関連論文リスト
- A Lightweight Multi-Module Fusion Approach for Korean Character Recognition [0.0]
SDA-Netは、堅牢な単一文字認識のための軽量で効率的なアーキテクチャである。
挑戦的なOCRベンチマークで最先端の精度を実現し、推論が大幅に高速になる。
論文 参考訳(メタデータ) (2025-04-08T07:50:19Z) - Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval [49.669503570350166]
生成情報検索(GenIR)は、文書識別子(ドシデント)生成タスクとして文書検索を定式化する有望なニューラル検索パラダイムである。
既存のGenIRモデルはトークンレベルのミスアライメントに悩まされており、次のトークンを予測するためにトレーニングされたモデルは、ドキュメントレベルの関連性を効果的にキャプチャできないことが多い。
本稿では,トークンレベルのドシデント生成と文書レベルのドシデンス推定をペアのランク付けによる直接最適化により整合するダイレクトドキュメントレバレンス最適化(DDRO)を提案する。
論文 参考訳(メタデータ) (2025-04-07T15:27:37Z) - VISTA-OCR: Towards generative and interactive end to end OCR models [3.7548609506798494]
VISTA-OCRは、単一の生成モデル内でテキストの検出と認識を統合する軽量アーキテクチャである。
エンコーダ-デコーダアーキテクチャに基づいて構築されたVISTA-OCRは、視覚的特徴抽出フェーズから始まり、徐々に訓練される。
モデルの性能を高めるために、バウンディングボックスアノテーションと合成サンプルで強化された実世界のサンプルからなる新しいデータセットを構築した。
論文 参考訳(メタデータ) (2025-04-04T17:39:53Z) - LMV-RPA: Large Model Voting-based Robotic Process Automation [0.0]
本稿では,OCRを向上する大規模モデル投票型ロボットプロセス自動化システムであるLMV-RPAを紹介する。
LMV-RPAは、Paddle OCR、Tesseract OCR、Easy OCR、DocTRなどのOCRエンジンから出力を統合する。
OCRタスクの99%の精度を実現し、ベースラインモデルの94%を突破し、処理時間を80%削減した。
論文 参考訳(メタデータ) (2024-12-23T20:28:22Z) - See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Adversarial Training with OCR Modality Perturbation for Scene-Text Visual Question Answering [8.382903851560595]
Scene-Text Visual Question Answering (ST-VQA) は、画像中のシーンテキストを理解し、テキストコンテンツに関連する質問に答えることを目的としている。
既存の手法の多くは光学文字認識(OCR)システムの精度に大きく依存している。
本研究では,空間認識機能を備えたマルチモーダル対向学習アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-14T11:22:06Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - SSR-Encoder: Encoding Selective Subject Representation for Subject-Driven Generation [39.84456803546365]
SSRエンコーダ(SSR-Encoder)は、単一のまたは複数の参照画像から任意の対象を選択的にキャプチャするように設計された新しいアーキテクチャである。
テストタイムの微調整を必要とせずに、テキストやマスクなど、さまざまなクエリのモダリティに応答する。
SSRエンコーダはモデルの一般化性と効率によって特徴付けられ、様々なカスタムモデルや制御モジュールに対応している。
論文 参考訳(メタデータ) (2023-12-26T14:39:11Z) - UPOCR: Towards Unified Pixel-Level OCR Interface [36.966005829678124]
We propose UPOCR, a simple-yet- effective generalist model for Unified Pixel-level OCR interface。
具体的には,多様なOCRタスクのパラダイムをイメージ・ツー・イメージ変換として,アーキテクチャを視覚変換器(ViT)ベースのエンコーダ・デコーダとして統一する。
テキスト除去、テキストセグメンテーション、改ざんテキスト検出を含む3つの画素レベルのOCRタスクで実験を行った。
論文 参考訳(メタデータ) (2023-12-05T11:53:17Z) - Turning a CLIP Model into a Scene Text Spotter [73.63953542526917]
我々は,大規模コントラスト言語-画像事前学習(CLIP)モデルの可能性を活用し,シーンテキストの検出とスポッティング作業を強化する。
このバックボーンは、CLIPにおける視覚的プロンプト学習とクロスアテンションを利用して、画像とテキストベースの事前知識を抽出する。
FastTCM-CR50では、画像とテキストの埋め込みのシナジーを高めるために、インスタンス言語マッチングプロセスが導入されている。
論文 参考訳(メタデータ) (2023-08-21T01:25:48Z) - RBSR: Efficient and Flexible Recurrent Network for Burst
Super-Resolution [57.98314517861539]
バースト超解像(BurstSR)は、高解像度(HR)画像を低解像度(LR)画像と雑音画像から再構成することを目的としている。
本稿では,効率よくフレキシブルなリカレントネットワークでフレーム単位のキューを融合させることを提案する。
論文 参考訳(メタデータ) (2023-06-30T12:14:13Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - 3D Rendering Framework for Data Augmentation in Optical Character
Recognition [8.641647607173864]
光文字認識(OCR)のためのデータ拡張フレームワークを提案する。
提案するフレームワークは,新しい視角と照明シナリオを合成することができる。
一般的な Brno Mobile OCR データセットの 15% サブセットを増設することで,フレームワークの性能を実証する。
論文 参考訳(メタデータ) (2022-09-27T19:31:23Z) - PP-OCRv3: More Attempts for the Improvement of Ultra Lightweight OCR
System [11.622321298214043]
PP-OCRv3は、PP-OCRv2に基づいてテキスト検出モデルとテキスト認識モデルを9つの側面でアップグレードする。
実データによる実験では、PP-OCRv3のマハンはPP-OCRv2より5%高い。
論文 参考訳(メタデータ) (2022-06-07T04:33:50Z) - Donut: Document Understanding Transformer without OCR [17.397447819420695]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。
提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-30T18:55:19Z) - TrOCR: Transformer-based Optical Character Recognition with Pre-trained
Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。
TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。
実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-21T16:01:56Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。