論文の概要: Towards the Unseen: Iterative Text Recognition by Distilling from Errors
- arxiv url: http://arxiv.org/abs/2107.12081v1
- Date: Mon, 26 Jul 2021 10:06:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 20:42:30.208463
- Title: Towards the Unseen: Iterative Text Recognition by Distilling from Errors
- Title(参考訳): 未発見のテキスト認識に向けて : エラー蒸留による反復的テキスト認識
- Authors: Ayan Kumar Bhunia, Pinaki Nath Chowdhury, Aneeshan Sain, Yi-Zhe Song
- Abstract要約: 先行芸術は、ほとんど目に見えない(または稀に見られる)キャラクターのシーケンスを認識することに苦慮している。
我々はこの「目に見えない」問題に対処するための新しい枠組みを提唱した。
私たちの成功の鍵は、ユニークなクロスモーダル変分オートエンコーダです。
- 参考スコア(独自算出の注目度): 41.43280922432707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual text recognition is undoubtedly one of the most extensively researched
topics in computer vision. Great progress have been made to date, with the
latest models starting to focus on the more practical "in-the-wild" setting.
However, a salient problem still hinders practical deployment -- prior arts
mostly struggle with recognising unseen (or rarely seen) character sequences.
In this paper, we put forward a novel framework to specifically tackle this
"unseen" problem. Our framework is iterative in nature, in that it utilises
predicted knowledge of character sequences from a previous iteration, to
augment the main network in improving the next prediction. Key to our success
is a unique cross-modal variational autoencoder to act as a feedback module,
which is trained with the presence of textual error distribution data. This
module importantly translate a discrete predicted character space, to a
continuous affine transformation parameter space used to condition the visual
feature map at next iteration. Experiments on common datasets have shown
competitive performance over state-of-the-arts under the conventional setting.
Most importantly, under the new disjoint setup where train-test labels are
mutually exclusive, ours offers the best performance thus showcasing the
capability of generalising onto unseen words.
- Abstract(参考訳): ビジュアルテキスト認識は、間違いなくコンピュータビジョンで最も広く研究されているトピックの1つである。
最新のモデルではより実用的な"In-the-wild"設定に焦点が当てられている。
しかし、健全な問題は、まだ実践的な展開を妨げる - 先行技術は、ほとんど目に見えない(あるいは稀に見られる)文字シーケンスを認識するのに苦労している。
本稿では,この「見当たらない」問題に具体的に取り組むための新しい枠組みを提案する。
我々のフレームワークは本質的に反復的であり、前回のイテレーションから予測された文字列の知識を活用し、次の予測を改善するためにメインネットワークを増強する。
我々の成功の鍵は、フィードバックモジュールとして機能するユニークなクロスモーダル変分オートエンコーダであり、テキストエラー分布データの存在でトレーニングされている。
このモジュールは、離散予測されたキャラクタ空間を次のイテレーションで視覚特徴マップを条件づけるために使用される連続アフィン変換パラメータ空間に重要な翻訳を行う。
一般的なデータセットの実験は、従来の設定下での最先端よりも競争力のある性能を示している。
最も重要なことは、列車テストのラベルが相互に排他的である、新しい非協力的な設定の下で、我々のシステムは最高のパフォーマンスを提供し、目に見えない言葉に一般化する能力を示す。
関連論文リスト
- A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - Learning to Prompt for Vision-Language Models [82.25005817904027]
視覚言語による事前学習が表現学習の有望な代替手段として登場した。
画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。
このようなパラダイムは、より広範な監視源の恩恵を受け、下流タスクへのゼロショット転送を可能にします。
論文 参考訳(メタデータ) (2021-09-02T17:57:31Z) - Joint Visual Semantic Reasoning: Multi-Stage Decoder for Text
Recognition [36.12001394921506]
最先端のSOTA(State-of-the-art)モデルは、複雑な背景、さまざまなフォント、制御されていない照明、歪み、その他のアーチファクトのために、いまだに野生のシナリオで苦労している。
これは、そのようなモデルは、テキスト認識のための視覚情報にのみ依存するため、意味論的推論能力が欠如しているためである。
本稿では,複数段階の多段階の注意デコーダを提案する。
論文 参考訳(メタデータ) (2021-07-26T10:15:14Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z) - Incomplete Utterance Rewriting as Semantic Segmentation [57.13577518412252]
本稿では, セマンティックセグメンテーションタスクとして定式化する, 斬新で広範囲なアプローチを提案する。
スクラッチから生成する代わりに、このような定式化は編集操作を導入し、単語レベルの編集行列の予測として問題を形作る。
私たちのアプローチは、推論における標準的なアプローチの4倍高速です。
論文 参考訳(メタデータ) (2020-09-28T09:29:49Z) - Pay Attention to What You Read: Non-recurrent Handwritten Text-Line
Recognition [4.301658883577544]
変換器モデルを用いて手書きテキストを認識する非反復的手法を提案する。
我々は文字認識に取り組み、復号化すべき文字列の言語関連依存関係を学習することができる。
論文 参考訳(メタデータ) (2020-05-26T21:15:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。