論文の概要: Levenshtein OCR
- arxiv url: http://arxiv.org/abs/2209.03594v1
- Date: Thu, 8 Sep 2022 06:46:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 13:08:51.797958
- Title: Levenshtein OCR
- Title(参考訳): レベンシュテインOCR
- Authors: Cheng Da, Peng Wang, Cong Yao
- Abstract要約: VLT(Vision-Language Transformer)に基づく新しいシーンテキスト認識器を提案する。
提案手法は,NLP領域のLevenshtein Transformerに触発されて,自然画像からテキストを自動的に書き起こす方法を提案する。
- 参考スコア(独自算出の注目度): 20.48454415635795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A novel scene text recognizer based on Vision-Language Transformer (VLT) is
presented. Inspired by Levenshtein Transformer in the area of NLP, the proposed
method (named Levenshtein OCR, and LevOCR for short) explores an alternative
way for automatically transcribing textual content from cropped natural images.
Specifically, we cast the problem of scene text recognition as an iterative
sequence refinement process. The initial prediction sequence produced by a pure
vision model is encoded and fed into a cross-modal transformer to interact and
fuse with the visual features, to progressively approximate the ground truth.
The refinement process is accomplished via two basic character-level
operations: deletion and insertion, which are learned with imitation learning
and allow for parallel decoding, dynamic length change and good
interpretability. The quantitative experiments clearly demonstrate that LevOCR
achieves state-of-the-art performances on standard benchmarks and the
qualitative analyses verify the effectiveness and advantage of the proposed
LevOCR algorithm. Code will be released soon.
- Abstract(参考訳): VLT(Vision-Language Transformer)に基づく新しいシーンテキスト認識器を提案する。
NLP領域のLevenshtein Transformerにインスパイアされた提案手法(略してLevenshtein OCR、略してLevOCR)は、収穫した自然画像からテキストコンテンツを自動で書き起こす方法を模索している。
具体的には,シーンテキスト認識の問題を反復的シーケンス改善プロセスとして論じる。
純粋視覚モデルによって生成された初期予測シーケンスを符号化し、クロスモーダルトランスフォーマーに供給し、視覚特徴と相互作用し融合し、基底真理を漸進的に近似する。
改良プロセスは、模倣学習で学習し、並列復号化、動的長さ変化、良好な解釈性を実現する2つの基本的な文字レベルの操作によって達成される。
定量的実験により,LevOCRは標準ベンチマークの最先端性能を実現し,定性解析により提案アルゴリズムの有効性と有効性を検証した。
コードはまもなくリリースされる。
関連論文リスト
- TAP-VL: Text Layout-Aware Pre-training for Enriched Vision-Language Models [11.508589810076147]
TAP-VLは、光学文字認識情報を異なるモダリティとして扱い、任意のビジョン・ランゲージ(VL)モデルにシームレスに統合する。
実験は、トップパフォーマンスのVLモデルにTAP-VLを適用する際に、一貫した性能改善を示す。
論文 参考訳(メタデータ) (2024-11-07T11:54:01Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - DLoRA-TrOCR: Mixed Text Mode Optical Character Recognition Based On Transformer [12.966765239586994]
マルチフォント、混合シーン、複雑なレイアウトは、従来のOCRモデルの認識精度に深刻な影響を及ぼす。
本稿では,事前学習したOCR変換器,すなわちDLoRA-TrOCRに基づくパラメータ効率の良い混合テキスト認識手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T09:28:16Z) - Conditional Variational Autoencoder for Sign Language Translation with
Cross-Modal Alignment [33.96363443363547]
手話翻訳(SLT)は、連続手話動画をテキストに変換することを目的としている。
SLT(CV-SLT)のための条件変分オートエンコーダに基づく新しいフレームワークを提案する。
CV-SLTは、エンコーダとデコーダの出力を正規化するために、2つのKullback-Leiblerの分岐を持つ2つの経路からなる。
論文 参考訳(メタデータ) (2023-12-25T08:20:40Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z) - PreSTU: Pre-Training for Scene-Text Understanding [49.288302725486226]
シーンテキスト理解(STU)に特化した新しい事前学習レシピであるPreSTUを提案する。
PreSTUは、OCR対応の事前学習目標を導入し、モデルが画像からテキストを認識し、残りの画像コンテンツに接続することを奨励する。
8つの視覚的質問応答と4つの画像キャプションベンチマークに対して,この事前学習アプローチの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2022-09-12T18:29:55Z) - TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance [15.72669617789124]
シーンテキスト認識(STR)は画像とテキストの間の重要なブリッジである。
最近の手法では、凍結初期埋め込みを使用してデコーダを誘導し、特徴をテキストにデコードし、精度が低下する。
TRansformer-based text recognizer with Initial embeddeding Guidance (TRIG) という,テキスト認識のための新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-16T09:10:39Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。