論文の概要: Towards Open-Set Text Recognition via Label-to-Prototype Learning
- arxiv url: http://arxiv.org/abs/2203.05179v1
- Date: Thu, 10 Mar 2022 06:22:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 14:34:55.397161
- Title: Towards Open-Set Text Recognition via Label-to-Prototype Learning
- Title(参考訳): ラベル対プロトタイプ学習によるオープンセットテキスト認識
- Authors: Chang Liu, Chun Yang, Hai-Bo Qin, Xiaobin Zhu, JieBo Hou, and Xu-Cheng
Yin
- Abstract要約: モデルを再学習することなく,新しい文字を扱えるラベルとプロトタイプの学習フレームワークを提案する。
多くの実験により,提案手法は様々なゼロショット,クローズセット,オープンセットのテキスト認識データセット上で有望な性能を達成できることが示されている。
- 参考スコア(独自算出の注目度): 18.06730376866086
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Scene text recognition is a popular topic and can benefit various tasks.
Although many methods have been proposed for the close-set text recognition
challenges, they cannot be directly applied to open-set scenarios, where the
evaluation set contains novel characters not appearing in the training set.
Conventional methods require collecting new data and retraining the model to
handle these novel characters, which is an expensive and tedious process. In
this paper, we propose a label-to-prototype learning framework to handle novel
characters without retraining the model. In the proposed framework, novel
characters are effectively mapped to their corresponding prototypes with a
label-to-prototype learning module. This module is trained on characters with
seen labels and can be easily generalized to novel characters. Additionally,
feature-level rectification is conducted via topology-preserving
transformation, resulting in better alignments between visual features and
constructed prototypes while having a reasonably small impact on model speed. A
lot of experiments show that our method achieves promising performance on a
variety of zero-shot, close-set, and open-set text recognition datasets.
- Abstract(参考訳): シーンテキスト認識は人気のあるトピックであり、様々なタスクに役立てることができる。
クローズセットのテキスト認識課題に対して多くの手法が提案されているが、評価セットがトレーニングセットに現れない新しい文字を含むオープンセットシナリオに直接適用することはできない。
従来の方法では新しいデータを集め、これらの新しい文字を扱うためにモデルを再トレーニングする必要があります。
本稿では,モデルを再学習することなく,新しい文字を扱えるラベル-プロトタイプ学習フレームワークを提案する。
提案フレームワークでは,新しい文字をラベル-プロトタイプ学習モジュールを用いて,対応するプロトタイプに効果的にマッピングする。
このモジュールはラベルのある文字で訓練されており、新しい文字に簡単に一般化することができる。
さらに、特徴レベルの修正はトポロジ保存変換によって行われ、結果として視覚的特徴と構築されたプロトタイプとの整合性が向上し、モデル速度に適度に小さな影響を及ぼす。
多くの実験により,ゼロショット,クローズセット,オープンセットのテキスト認識データセットで有望な性能が得られることが示された。
関連論文リスト
- Leveraging Structure Knowledge and Deep Models for the Detection of Abnormal Handwritten Text [19.05500901000957]
構造知識と手書きテキストの深層モデルを組み合わせた2段階検出アルゴリズムを提案する。
新たな半教師付きコントラストトレーニング戦略によって訓練された形状回帰ネットワークを導入し、文字間の位置関係を十分に活用する。
2つの手書きテキストデータセットを用いた実験により,提案手法は検出性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2024-10-15T14:57:10Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Text as Image: Learning Transferable Adapter for Multi-Label
Classification [13.11583340598517]
マルチラベル命令追従テキスト生成に大規模言語モデルを用いるための効果的なアプローチを提案する。
このように、ビジュアルラベル認識のための完全に自動化されたパイプラインは、手動のデータに頼ることなく開発される。
論文 参考訳(メタデータ) (2023-12-07T09:22:20Z) - Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z) - CAPro: Webly Supervised Learning with Cross-Modality Aligned Prototypes [93.71909293023663]
クロスモダリティ・アライテッド・プロトタイプ(CAPro)は、視覚表現を正しい意味論で学習する統合コントラスト学習フレームワークである。
CAProは、新しい最先端のパフォーマンスを実現し、オープンセット認識に対する堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-15T07:20:22Z) - MetricPrompt: Prompting Model as a Relevance Metric for Few-shot Text
Classification [65.51149771074944]
MetricPromptは、数発のテキスト分類タスクをテキストペア関連性推定タスクに書き換えることで、言語設計の難易度を緩和する。
広範に使われている3つのテキスト分類データセットを4つのショット・セッティングで実験する。
結果から,MetricPromptは,手動弁証法や自動弁証法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-06-15T06:51:35Z) - WordStylist: Styled Verbatim Handwritten Text Generation with Latent
Diffusion Models [8.334487584550185]
単語レベルに基づくテキスト・テキスト・コンテンツ・イメージ生成のための遅延拡散に基づく手法を提案する。
提案手法は,異なる書き手スタイルからリアルな単語画像のサンプルを生成することができる。
提案モデルでは,美的満足度の高いサンプルを作成し,テキスト認識性能の向上に寄与し,類似の文字検索スコアを実データとして得られることを示す。
論文 参考訳(メタデータ) (2023-03-29T10:19:26Z) - Eliciting Knowledge from Pretrained Language Models for Prototypical
Prompt Verbalizer [12.596033546002321]
本稿では,事前学習された言語モデルから知識を抽出することに集中し,プロンプト学習のためのプロトタイプなプロンプト動詞化手法を提案する。
ゼロショット設定では、知識は事前訓練された言語モデルから手動で設計され、初期プロトタイプの埋め込みを形成する。
数ショット設定では、モデルは有意義で解釈可能なプロトタイプの埋め込みを学ぶように調整される。
論文 参考訳(メタデータ) (2022-01-14T12:04:37Z) - Adaptive Text Recognition through Visual Matching [86.40870804449737]
言語における文字の反復性を利用した新しいモデルを提案する。
これにより、テキスト認識を形状整合問題に変換する。
従来のアーキテクチャでは、高価な再トレーニングなしには解決できない課題に対処できることが示されています。
論文 参考訳(メタデータ) (2020-09-14T17:48:53Z) - Separating Content from Style Using Adversarial Learning for Recognizing
Text in the Wild [103.51604161298512]
画像中の複数の文字の生成と認識のための逆学習フレームワークを提案する。
我々のフレームワークは、新しい最先端の認識精度を達成するために、最近の認識手法に統合することができる。
論文 参考訳(メタデータ) (2020-01-13T12:41:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。