論文の概要: CLIPTER: Looking at the Bigger Picture in Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2301.07464v1
- Date: Wed, 18 Jan 2023 12:16:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 16:08:44.040422
- Title: CLIPTER: Looking at the Bigger Picture in Scene Text Recognition
- Title(参考訳): clipter: シーンのテキスト認識で大きな画像を見る
- Authors: Aviad Aberdam, David Bensa\"id, Alona Golts, Roy Ganz, Oren Nuriel,
Royee Tichauer, Shai Mazor, Ron Litman
- Abstract要約: 現在のシーンテキスト認識器は、大きな画像に気付かず、収穫されたテキストイメージで動作する。
画像全体をリッチに表現し,クロスアテンションによる認識語レベルの特徴と融合する。
我々はいくつかの主要なテキスト認識装置にCLIPTER -CLIPテキスト認識というモデルに依存しないフレームワークを実装した。
- 参考スコア(独自算出の注目度): 10.561377899703238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the scene is often essential for reading text in real-world
scenarios. However, current scene text recognizers operate on cropped text
images, unaware of the bigger picture. In this work, we harness the
representative power of recent vision-language models, such as CLIP, to provide
the crop-based recognizer with scene, image-level information. Specifically, we
obtain a rich representation of the entire image and fuse it with the
recognizer word-level features via cross-attention. Moreover, a gated mechanism
is introduced that gradually shifts to the context-enriched representation,
enabling simply fine-tuning a pretrained recognizer. We implement our
model-agnostic framework, named CLIPTER - CLIP Text Recognition, on several
leading text recognizers and demonstrate consistent performance gains,
achieving state-of-the-art results over multiple benchmarks. Furthermore, an
in-depth analysis reveals improved robustness to out-of-vocabulary words and
enhanced generalization in low-data regimes.
- Abstract(参考訳): 現場を理解することは、現実世界のシナリオでテキストを読むのに不可欠である。
しかし、現在のシーンテキスト認識装置は、より大きな画像に気付かず、切り抜かれたテキスト画像を操作する。
本研究では,CLIPのような近年の視覚言語モデルの代表的能力を活用し,シーンや画像レベルの情報を提供する。
具体的には、画像全体をリッチに表現し、クロスアテンションを介して認識語レベルの特徴と融合する。
さらに、コンテキストエンリッチ表現に徐々にシフトし、事前学習された認識器を単純に微調整するゲート機構を導入する。
CLIPTER - CLIPテキスト認識というモデル非依存のフレームワークをいくつかの主要なテキスト認識器に実装し、一貫性のあるパフォーマンス向上を示し、複数のベンチマークで最先端の結果を得る。
さらに、詳細な分析により、語彙外単語に対する堅牢性の向上と、低データ体制における一般化の強化が示される。
関連論文リスト
- Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Self-Supervised Image-to-Text and Text-to-Image Synthesis [23.587581181330123]
クロスモーダルな埋め込み空間を学習するための,新たな自己教師型深層学習手法を提案する。
そこで本研究では,まず,StackGANベースのオートエンコーダモデルを用いて画像の高密度ベクトル表現と,LSTMベースのテキストオートエンコーダを用いた文レベルでの高密度ベクトル表現を得る。
論文 参考訳(メタデータ) (2021-12-09T13:54:56Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - On Vocabulary Reliance in Scene Text Recognition [79.21737876442253]
ボキャブラリ内の単語を持つ画像に対して、手法は良好に機能するが、ボキャブラリ外の単語を持つ画像にはあまり一般化しない。
私たちはこの現象を「語彙依存」と呼んでいる。
本研究では,2家族のモデルが協調的に学習できるようにするための,シンプルで効果的な相互学習戦略を提案する。
論文 参考訳(メタデータ) (2020-05-08T11:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。