論文の概要: A Masked Bounding-Box Selection Based ResNet Predictor for Text Rotation
Prediction
- arxiv url: http://arxiv.org/abs/2209.09198v1
- Date: Tue, 6 Sep 2022 19:02:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 17:38:54.313882
- Title: A Masked Bounding-Box Selection Based ResNet Predictor for Text Rotation
Prediction
- Title(参考訳): テキスト回転予測のためのマスク付きバウンディングボックス選択型ResNet予測器
- Authors: Michael Yang, Yuan Lin, and ChiuMan Ho
- Abstract要約: システムにバウンディングボックス情報を組み込んだ新しいマスク付きバウンディングボックス選択手法を提案する。
ResNet予測器をトレーニングして、関心領域としてバウンディングボックスにフォーカスすることで、予測器はバックグラウンドノイズを見渡すことができる。
テキスト回転予測タスクの評価は,本手法が大きなマージンで性能を向上させることを示す。
- 参考スコア(独自算出の注目度): 7.906594362725982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The existing Optical Character Recognition (OCR) systems are capable of
recognizing images with horizontal texts. However, when the rotation of the
texts increases, it becomes harder to recognizing these texts. The performance
of the OCR systems decreases. Thus predicting the rotations of the texts and
correcting the images are important. Previous work mainly uses traditional
Computer Vision methods like Hough Transform and Deep Learning methods like
Convolutional Neural Network. However, all of these methods are prone to
background noises commonly existing in general images with texts. To tackle
this problem, in this work, we introduce a new masked bounding-box selection
method, that incorporating the bounding box information into the system. By
training a ResNet predictor to focus on the bounding box as the region of
interest (ROI), the predictor learns to overlook the background noises.
Evaluations on the text rotation prediction tasks show that our method improves
the performance by a large margin.
- Abstract(参考訳): 既存の光学文字認識(OCR)システムは、水平テキストで画像を認識することができる。
しかし、テキストの回転が増加すると、これらのテキストを認識するのが難しくなる。
OCRシステムの性能は低下する。
したがって、テキストの回転を予測し、画像を補正することが重要である。
これまでの研究は主に、ハフ変換のような伝統的なコンピュータビジョン法と畳み込みニューラルネットワークのようなディープラーニング法を使っている。
しかし,これらの手法はすべて,テキスト付き画像に一般的に存在する背景雑音に起因している。
この問題に対処するため,本研究では,バウンディングボックス情報をシステムに組み込んだ新しいマスクドバウンディングボックス選択手法を提案する。
ResNet予測器をトレーニングして、関心領域(ROI)としてのバウンディングボックスに集中することにより、予測器はバックグラウンドノイズを見渡すことができる。
テキスト回転予測タスクの評価は,本手法が大きなマージンで性能を向上させることを示す。
関連論文リスト
- See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Optimization of Image Processing Algorithms for Character Recognition in
Cultural Typewritten Documents [0.8158530638728501]
光文字認識(OCR)における画像処理手法とパラメータチューニングの影響について検討する。
この手法は多目的問題定式化を用いて、Levenshtein編集距離を最小化し、非支配的ソート遺伝的アルゴリズム(NSGA-II)で正しく同定された単語数を最大化する。
以上の結果から,OCRにおける画像前処理アルゴリズムの活用は,前処理なしのテキスト認識タスクが良い結果を出さないタイプに適している可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-27T11:44:46Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - PreSTU: Pre-Training for Scene-Text Understanding [49.288302725486226]
シーンテキスト理解(STU)に特化した新しい事前学習レシピであるPreSTUを提案する。
PreSTUは、OCR対応の事前学習目標を導入し、モデルが画像からテキストを認識し、残りの画像コンテンツに接続することを奨励する。
8つの視覚的質問応答と4つの画像キャプションベンチマークに対して,この事前学習アプローチの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2022-09-12T18:29:55Z) - Levenshtein OCR [20.48454415635795]
VLT(Vision-Language Transformer)に基づく新しいシーンテキスト認識器を提案する。
提案手法は,NLP領域のLevenshtein Transformerに触発されて,自然画像からテキストを自動的に書き起こす方法を提案する。
論文 参考訳(メタデータ) (2022-09-08T06:46:50Z) - Optimal Boxes: Boosting End-to-End Scene Text Recognition by Adjusting
Annotated Bounding Boxes via Reinforcement Learning [41.56134008044702]
Boxは、テキスト認識モデルとの互換性を高めるために、各テキスト境界ボックスの形状を調整する強化学習ベースの方法である。
実験により、調整された境界ボックスをトレーニングの真理として使用する場合、エンド・ツー・エンドのテキスト認識システムの性能を向上させることができることを示した。
論文 参考訳(メタデータ) (2022-07-25T06:58:45Z) - A Text Attention Network for Spatial Deformation Robust Scene Text Image
Super-resolution [13.934846626570286]
シーンテキスト画像の超解像度は、低解像度画像におけるテキストの解像度と可読性を向上させることを目的としている。
空間的に変形したテキスト、特に回転して湾曲したテキストの高解像度画像の再構成は依然として困難である。
この問題に対処するために,CNN ベースの Text ATTention Network (TATT) を提案する。
論文 参考訳(メタデータ) (2022-03-17T15:28:29Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。