論文の概要: HENet: Forcing a Network to Think More for Font Recognition
- arxiv url: http://arxiv.org/abs/2110.10872v1
- Date: Thu, 21 Oct 2021 03:25:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 17:14:24.592038
- Title: HENet: Forcing a Network to Think More for Font Recognition
- Title(参考訳): HENet:ネットワークにフォント認識をより深く考えるよう強制する
- Authors: Jingchao Chen, Shiyi Mu, Shugong Xu, Youdong Ding
- Abstract要約: 本稿では,フォント認識タスクを解決するプラグインモジュールを備えた新しいフォント認識器を提案する。
プラグイン可能なモジュールは、最も識別しやすい機能を隠蔽し、HEブロックと呼ばれる類似フォントの難しい例を解決するために、他の複雑な機能を考えるようにネットワークに強制する。
- 参考スコア(独自算出の注目度): 10.278412487287882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although lots of progress were made in Text Recognition/OCR in recent years,
the task of font recognition is remaining challenging. The main challenge lies
in the subtle difference between these similar fonts, which is hard to
distinguish. This paper proposes a novel font recognizer with a pluggable
module solving the font recognition task. The pluggable module hides the most
discriminative accessible features and forces the network to consider other
complicated features to solve the hard examples of similar fonts, called HE
Block. Compared with the available public font recognition systems, our
proposed method does not require any interactions at the inference stage.
Extensive experiments demonstrate that HENet achieves encouraging performance,
including on character-level dataset Explor_all and word-level dataset AdobeVFR
- Abstract(参考訳): 近年、テキスト認識/ocrでは多くの進歩が見られたが、フォント認識の課題は依然として困難である。
主な課題は、これらの類似フォント間の微妙な違いであり、区別が難しいことである。
本稿では,フォント認識タスクを解決するプラグインモジュールを備えた新しいフォント認識器を提案する。
プラグイン可能なモジュールは最も識別しやすい機能を隠蔽し、他の複雑な機能を考慮させ、HEブロックと呼ばれる類似フォントの難しい例を解決する。
利用可能なフォント認識システムと比較して,提案手法は推論段階での相互作用を必要としない。
HENetは文字レベルのデータセットExplore_allや単語レベルのデータセットであるAdobeVFRなど、高いパフォーマンスを実現している。
関連論文リスト
- A Cross-Font Image Retrieval Network for Recognizing Undeciphered Oracle Bone Inscriptions [12.664292922995532]
Oracle Bone Inscription (OBI) は中国で最も初期の成熟した書記システムである。
OBI文字を解読するクロスファント画像検索ネットワーク(CFIRN)を提案する。
論文 参考訳(メタデータ) (2024-09-10T10:04:58Z) - GatedLexiconNet: A Comprehensive End-to-End Handwritten Paragraph Text Recognition System [3.9527064697847005]
内部線分割と畳み込み層に基づくエンコーダを組み込んだエンドツーエンドの段落認識システムを提案する。
本研究は、IAMでは2.27%、RIMESでは0.9%、READ-16では2.13%、READ-2016データセットでは5.73%の文字誤り率を報告した。
論文 参考訳(メタデータ) (2024-04-22T10:19:16Z) - Class-Aware Mask-Guided Feature Refinement for Scene Text Recognition [56.968108142307976]
CAM(Class-Aware Mask-Guided Feature refinement)と呼ばれる新しい手法を提案する。
本手法では,背景およびテキストスタイルのノイズを抑制するために,標準クラス対応グリフマスクを導入している。
標準マスク特徴とテキスト特徴とのアライメントを強化することにより、モジュールはより効果的な融合を保証する。
論文 参考訳(メタデータ) (2024-02-21T09:22:45Z) - Diff-Font: Diffusion Model for Robust One-Shot Font Generation [110.45944936952309]
Diff-Fontという拡散モデルに基づく新しいワンショットフォント生成手法を提案する。
提案するモデルは,フォントライブラリ全体を生成することを目的として,参照として1つのサンプルのみを与える。
十分に訓練されたDiff-Fontは、フォントギャップやフォントのバリエーションに対して堅牢であるだけでなく、難しい文字生成において有望なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-12-12T13:51:50Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - A Multi-Implicit Neural Representation for Fonts [79.6123184198301]
エッジやコーナーのようなフォント固有の不連続性は、ニューラルネットワークを使って表現することが難しい。
そこで我々は,フォントを文順に表現するためのtextitmulti-implicitsを導入する。
論文 参考訳(メタデータ) (2021-06-12T21:40:11Z) - Implicit Feature Alignment: Learn to Convert Text Recognizer to Text
Spotter [38.4211220941874]
我々はIFA(Implicit Feature Alignment)と呼ばれるシンプルでエレガントで効果的なパラダイムを提案する。
IFAは、現在のテキスト認識器に容易に統合でき、その結果、IFA推論と呼ばれる新しい推論機構が生まれる。
IFAは、エンドツーエンドの文書認識タスクにおいて最先端のパフォーマンスを達成することを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-10T17:06:28Z) - DG-Font: Deformable Generative Networks for Unsupervised Font Generation [14.178381391124036]
非監視フォント生成(DGFont)のための新しい変形可能な生成ネットワークを提案する。
本稿では,一対の変位マップを予測し,予測地図を用いてコンテンツエンコーダからの低レベル特徴マップに変形可能な畳み込みを適用する特徴変形スキップ接続(fdsc)を提案する。
実験により,本モデルが最先端手法よりも高品質な文字を生成することを実証した。
論文 参考訳(メタデータ) (2021-04-07T11:32:32Z) - Let Me Choose: From Verbal Context to Font Selection [50.293897197235296]
フォントの視覚的属性と典型的に適用されるテキストの言語的文脈との関係を学習することを目的としている。
我々は、クラウドソーシングを通じてラベル付けされたソーシャルメディア投稿や広告で、さまざまなトピックの例を含む、新しいデータセットを紹介した。
論文 参考訳(メタデータ) (2020-05-03T17:36:17Z) - Character-independent font identification [11.86456063377268]
2文字が同一フォントであるか否かを判定する手法を提案する。
我々は様々なフォントイメージペアで訓練された畳み込みニューラルネットワーク(CNN)を用いる。
次に、ネットワークに見つからないフォントの異なるセットでモデルを評価する。
論文 参考訳(メタデータ) (2020-01-24T05:59:53Z) - Separating Content from Style Using Adversarial Learning for Recognizing
Text in the Wild [103.51604161298512]
画像中の複数の文字の生成と認識のための逆学習フレームワークを提案する。
我々のフレームワークは、新しい最先端の認識精度を達成するために、最近の認識手法に統合することができる。
論文 参考訳(メタデータ) (2020-01-13T12:41:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。