論文の概要: DTrOCR: Decoder-only Transformer for Optical Character Recognition
- arxiv url: http://arxiv.org/abs/2308.15996v1
- Date: Wed, 30 Aug 2023 12:37:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 13:25:01.781444
- Title: DTrOCR: Decoder-only Transformer for Optical Character Recognition
- Title(参考訳): DTrOCR:光文字認識のためのデコーダのみ変換器
- Authors: Masato Fujitake
- Abstract要約: 我々は,光文字認識用デコーダのみ変換器(DTrOCR)と呼ばれる,テキスト認識のためのよりシンプルで効果的な方法を提案する。
この方法は、デコーダのみのトランスフォーマーを使用して、大きなコーパスで事前訓練された生成言語モデルを活用する。
我々の実験では、DTrOCRは、英語と中国語の両方で印刷、手書き、シーンテキストの認識において、最先端の手法よりもはるかに優れていることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Typical text recognition methods rely on an encoder-decoder structure, in
which the encoder extracts features from an image, and the decoder produces
recognized text from these features. In this study, we propose a simpler and
more effective method for text recognition, known as the Decoder-only
Transformer for Optical Character Recognition (DTrOCR). This method uses a
decoder-only Transformer to take advantage of a generative language model that
is pre-trained on a large corpus. We examined whether a generative language
model that has been successful in natural language processing can also be
effective for text recognition in computer vision. Our experiments demonstrated
that DTrOCR outperforms current state-of-the-art methods by a large margin in
the recognition of printed, handwritten, and scene text in both English and
Chinese.
- Abstract(参考訳): 典型的なテキスト認識手法は、画像から特徴を抽出するエンコーダ・デコーダ構造に依存しており、デコーダはこれらの特徴から認識されたテキストを生成する。
本研究では,Decoder-only Transformer for Optical Character Recognition (DTrOCR) と呼ばれる,よりシンプルで効果的なテキスト認識手法を提案する。
この方法は、デコーダのみのトランスフォーマーを使用して、大きなコーパスで事前訓練された生成言語モデルを活用する。
自然言語処理に成功している生成言語モデルが,コンピュータビジョンにおけるテキスト認識にも有効かどうかを検討した。
我々の実験では、DTrOCRは、英語と中国語の両方で印刷、手書き、シーンテキストの認識において、最先端の手法よりもはるかに優れていることを示した。
関連論文リスト
- UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Enhancing Large Language Model-based Speech Recognition by Contextualization for Rare and Ambiguous Words [10.2138250640885]
我々は,テキストプロンプトにキーワードを付与することで文脈認識が可能な,大規模言語モデル(LLM)に基づく自動音声認識(ASR)システムを開発した。
我々はデコーダのみのアーキテクチャを採用し、日本語と英語が支配するデータセットをデコーダとして、スクラッチから事前学習した社内LLMであるPLaMo-100Bをデコーダとして使用する。
論文 参考訳(メタデータ) (2024-08-15T08:50:58Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - TrOCR: Transformer-based Optical Character Recognition with Pre-trained
Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。
TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。
実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-21T16:01:56Z) - SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text
Recognition [17.191496890376197]
そこで我々は,低品質シーンテキストを頑健に認識するために,エンコーダ・デコーダ・フレームワークを改良したセマンティクスを提案する。
提案するフレームワークは、低品質のテキスト画像に対してより堅牢であり、いくつかのベンチマークデータセットで最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-05-22T03:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。