論文の概要: Joint Visual Semantic Reasoning: Multi-Stage Decoder for Text
Recognition
- arxiv url: http://arxiv.org/abs/2107.12090v1
- Date: Mon, 26 Jul 2021 10:15:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 20:04:14.610327
- Title: Joint Visual Semantic Reasoning: Multi-Stage Decoder for Text
Recognition
- Title(参考訳): 共同ビジュアルセマンティック推論:テキスト認識のためのマルチステージデコーダ
- Authors: Ayan Kumar Bhunia, Aneeshan Sain, Amandeep Kumar, Shuvozit Ghose,
Pinaki Nath Chowdhury, Yi-Zhe Song
- Abstract要約: 最先端のSOTA(State-of-the-art)モデルは、複雑な背景、さまざまなフォント、制御されていない照明、歪み、その他のアーチファクトのために、いまだに野生のシナリオで苦労している。
これは、そのようなモデルは、テキスト認識のための視覚情報にのみ依存するため、意味論的推論能力が欠如しているためである。
本稿では,複数段階の多段階の注意デコーダを提案する。
- 参考スコア(独自算出の注目度): 36.12001394921506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although text recognition has significantly evolved over the years,
state-of-the-art (SOTA) models still struggle in the wild scenarios due to
complex backgrounds, varying fonts, uncontrolled illuminations, distortions and
other artefacts. This is because such models solely depend on visual
information for text recognition, thus lacking semantic reasoning capabilities.
In this paper, we argue that semantic information offers a complementary role
in addition to visual only. More specifically, we additionally utilize semantic
information by proposing a multi-stage multi-scale attentional decoder that
performs joint visual-semantic reasoning. Our novelty lies in the intuition
that for text recognition, the prediction should be refined in a stage-wise
manner. Therefore our key contribution is in designing a stage-wise unrolling
attentional decoder where non-differentiability, invoked by discretely
predicted character labels, needs to be bypassed for end-to-end training. While
the first stage predicts using visual features, subsequent stages refine on top
of it using joint visual-semantic information. Additionally, we introduce
multi-scale 2D attention along with dense and residual connections between
different stages to deal with varying scales of character sizes, for better
performance and faster convergence during training. Experimental results show
our approach to outperform existing SOTA methods by a considerable margin.
- Abstract(参考訳): テキスト認識は長年にわたって大きく進歩してきたが、最先端のSOTA(State-of-the-art)モデルは、複雑な背景、さまざまなフォント、制御されていない照明、歪み、その他のアーチファクトなどにより、いまだに困難な状況にある。
これは、このようなモデルはテキスト認識のための視覚的情報のみに依存するため、意味的推論能力が欠如しているためである。
本稿では,視覚のみに加えて意味情報も補完的な役割を担っていると論じる。
より具体的には,多段階の多段階の注意デコーダを提案することで意味情報を活用する。
私たちの目新しさは、テキスト認識では、予測は段階的に洗練されるべきという直観にある。
したがって, 離散的に予測された文字ラベルによって引き起こされる非微分性は, エンドツーエンドのトレーニングのためにバイパスされる必要がある。
第1段階は視覚的特徴を用いて予測するが、第2段階は視覚的情報を用いてその上を洗練する。
さらに,異なる段階間の密接な接続と密接な関係を伴って多次元の注意を取り入れて,キャラクタサイズの異なるスケールに対処し,訓練時の性能向上と収束の高速化を図る。
実験結果から,既存のSOTA法よりもかなり優れた手法が得られた。
関連論文リスト
- Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Multi-modal Text Recognition Networks: Interactive Enhancements between
Visual and Semantic Features [11.48760300147023]
本稿では,MATRN(Multi-Almod Text Recognition Network)と呼ばれる新しい手法を提案する。
MATRNは視覚的特徴対と意味的特徴対を特定し、空間情報を意味的特徴にエンコードする。
実験の結果,MATRNは7つのベンチマークで最先端のパフォーマンスを達成できた。
論文 参考訳(メタデータ) (2021-11-30T10:22:11Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Towards the Unseen: Iterative Text Recognition by Distilling from Errors [41.43280922432707]
先行芸術は、ほとんど目に見えない(または稀に見られる)キャラクターのシーケンスを認識することに苦慮している。
我々はこの「目に見えない」問題に対処するための新しい枠組みを提唱した。
私たちの成功の鍵は、ユニークなクロスモーダル変分オートエンコーダです。
論文 参考訳(メタデータ) (2021-07-26T10:06:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。