論文の概要: Scene Text Recognition with Image-Text Matching-guided Dictionary
- arxiv url: http://arxiv.org/abs/2305.04524v1
- Date: Mon, 8 May 2023 07:47:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 15:06:02.030255
- Title: Scene Text Recognition with Image-Text Matching-guided Dictionary
- Title(参考訳): 画像テキストマッチングガイド付き辞書を用いたシーンテキスト認識
- Authors: Jiajun Wei, Hongjian Zhan, Xiao Tu, Yue Lu, and Umapada Pal
- Abstract要約: Scene Image-Text Matching (SITM) ネットワークを利用した辞書言語モデルを提案する。
ITCにインスパイアされたSITMネットワークは、すべての候補の視覚的特徴とテキスト的特徴を組み合わせて、特徴空間における最小距離の候補を特定する。
本手法は6つの主要なベンチマークにおいて,通常の手法よりも優れた結果(93.8%の精度)が得られる。
- 参考スコア(独自算出の注目度): 17.073688809336456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Employing a dictionary can efficiently rectify the deviation between the
visual prediction and the ground truth in scene text recognition methods.
However, the independence of the dictionary on the visual features may lead to
incorrect rectification of accurate visual predictions. In this paper, we
propose a new dictionary language model leveraging the Scene Image-Text
Matching(SITM) network, which avoids the drawbacks of the explicit dictionary
language model: 1) the independence of the visual features; 2) noisy choice in
candidates etc. The SITM network accomplishes this by using Image-Text
Contrastive (ITC) Learning to match an image with its corresponding text among
candidates in the inference stage. ITC is widely used in vision-language
learning to pull the positive image-text pair closer in feature space. Inspired
by ITC, the SITM network combines the visual features and the text features of
all candidates to identify the candidate with the minimum distance in the
feature space. Our lexicon method achieves better results(93.8\% accuracy) than
the ordinary method results(92.1\% accuracy) on six mainstream benchmarks.
Additionally, we integrate our method with ABINet and establish new
state-of-the-art results on several benchmarks.
- Abstract(参考訳): シーンテキスト認識手法において、辞書を用いることで、視覚的予測と地上真実とのずれを効率よく修正することができる。
しかし、視覚特徴に対する辞書の独立性は、正確な視覚予測を不正確な修正に導く可能性がある。
本稿では,明示的な辞書言語モデルの欠点を回避するために,シーン画像テキストマッチング(sitm)ネットワークを活用した新しい辞書言語モデルを提案する。
1) 視覚的特徴の独立性
2)候補者等における騒がしい選択
SITMネットワークは、画像テキストコントラスト学習(ITC)を用いて、画像と対応するテキストを推論段階の候補間でマッチングすることでこれを達成している。
ITCは視覚言語学習において、ポジティブな画像テキストペアを特徴空間に近づけるために広く使われている。
ITCにインスパイアされたSITMネットワークは、すべての候補の視覚的特徴とテキスト的特徴を組み合わせて、特徴空間における最小距離の候補を特定する。
本手法は6つの主要なベンチマークにおいて,通常の手法よりも優れた結果(93.8\%精度)が得られる。
さらに,この手法をABINetと統合し,いくつかのベンチマークで新たな最先端結果を確立する。
関連論文リスト
- Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。
より優れた名前埋め込みを学習するための顔命名モジュールを提案する。
私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文 参考訳(メタデータ) (2023-08-16T12:39:39Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Text-based Person Search in Full Images via Semantic-Driven Proposal
Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。
クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文 参考訳(メタデータ) (2021-09-27T11:42:40Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z) - Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language
Representation Learning [31.895442072646254]
「tHe bOx」は画像全体を入力とし、視覚言語表現をエンドツーエンドで学習する。
SohoはMSCOCOテキスト検索5kテスト分割で2.0% R@1スコア、NLVR$2$テスト-P分割で1.5%の精度、SNLI-VEテスト分割で6.7%の精度を達成しました。
論文 参考訳(メタデータ) (2021-04-07T14:07:20Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Catching Out-of-Context Misinformation with Self-supervised Learning [2.435006380732194]
テキスト対とテキスト対を自動的に検出する新しい手法を提案する。
私たちのコアアイデアは、異なるソースから一致するキャプションを持つ画像のみを必要とする自己監督型のトレーニング戦略です。
本手法は82%のコンテキスト外検出精度を実現する。
論文 参考訳(メタデータ) (2021-01-15T19:00:42Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Deep Multimodal Image-Text Embeddings for Automatic Cross-Media
Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。
このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文 参考訳(メタデータ) (2020-02-23T23:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。