論文の概要: SAN: Structure-Aware Network for Complex and Long-tailed Chinese Text Recognition
- arxiv url: http://arxiv.org/abs/2411.06381v1
- Date: Sun, 10 Nov 2024 07:41:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:09:21.986070
- Title: SAN: Structure-Aware Network for Complex and Long-tailed Chinese Text Recognition
- Title(参考訳): SAN: 複雑長文認識のための構造認識ネットワーク
- Authors: Junyi Zhang, Chang Liu, Chun Yang,
- Abstract要約: 複雑な文字の認識性能を向上させるため,階層型合成情報を利用した構造認識ネットワークを提案する。
実験により,提案手法は複雑な文字と尾文字の性能を大幅に向上し,全体的な性能が向上することを示した。
- 参考スコア(独自算出の注目度): 9.190324058948987
- License:
- Abstract: In text recognition, complex glyphs and tail classes have always been factors affecting model performance. Specifically for Chinese text recognition, the lack of shape-awareness can lead to confusion among close complex characters. Since such characters are often tail classes that appear less frequently in the training-set, making it harder for the model to capture its shape information. Hence in this work, we propose a structure-aware network utilizing the hierarchical composition information to improve the recognition performance of complex characters. Implementation-wise, we first propose an auxiliary radical branch and integrate it into the base recognition network as a regularization term, which distills hierarchical composition information into the feature extractor. A Tree-Similarity-based weighting mechanism is then proposed to further utilize the depth information in the hierarchical representation. Experiments demonstrate that the proposed approach can significantly improve the performances of complex characters and tail characters, yielding a better overall performance. Code is available at https://github.com/Levi-ZJY/SAN.
- Abstract(参考訳): テキスト認識では、複雑なグリフとテールクラスがモデル性能に影響を与える要素である。
特に中国語のテキスト認識において、形状認識の欠如は、複雑な文字間の混同につながる可能性がある。
このような文字はしばしば、トレーニングセットにおいてあまり頻度の低い末尾クラスであるため、モデルがその形状情報を取得するのが難しくなる。
そこで本研究では,階層構成情報を利用した構造認識ネットワークを提案し,複雑な文字の認識性能を向上させる。
実装面では,まず補助的ラジカル分岐を提案し,それを正規化用語としてベース認識ネットワークに統合し,階層的な合成情報を抽出器に蒸留する。
次に、木相似性に基づく重み付け機構を提案し、階層表現における深度情報をさらに活用する。
実験により,提案手法は複雑な文字と尾文字の性能を大幅に向上し,全体的な性能が向上することを示した。
コードはhttps://github.com/Levi-ZJY/SANで入手できる。
関連論文リスト
- Improving Chinese Character Representation with Formation Tree [3.1684694301284804]
Formation Tree-CLIP (FT-CLIP) は漢字の効果的な表現を学習するための新しいモデルである。
フォーメーションツリーを組み込んで文字を表現し、専用のツリーエンコーダを組み込み、文字認識タスクと見えない文字認識タスクの両方のパフォーマンスを大幅に改善する。
広範囲な実験により、生成木による文字の処理は、直接逐次法よりも固有の性質と整合していることが示されている。
論文 参考訳(メタデータ) (2024-04-19T07:47:23Z) - How Deep Networks Learn Sparse and Hierarchical Data: the Sparse Random Hierarchy Model [4.215221129670858]
生成的階層的データモデルに空間性を導入することで、スムーズな変換の離散バージョンである空間変換に対する非感受性を得ることを示す。
SRHMを学習するCNNのサンプルの複雑さが、タスクのスパーシリティと階層構造の両方に依存するかを定量化する。
論文 参考訳(メタデータ) (2024-04-16T17:01:27Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Learning Generative Structure Prior for Blind Text Image
Super-resolution [153.05759524358467]
我々は、キャラクター構造にもっと焦点をあてた小説を提示する。
StyleGANの生成空間を制限するため、各文字の離散的な特徴をコードブックに格納する。
提案した構造は, 従来より強い文字特異的指導を行い, 指定された文字の忠実で正確なストロークを復元する。
論文 参考訳(メタデータ) (2023-03-26T13:54:28Z) - Real-World Compositional Generalization with Disentangled
Sequence-to-Sequence Learning [81.24269148865555]
最近提案されたDunangled sequence-to-sequence model (Dangle)は、有望な一般化能力を示している。
このモデルに2つの重要な変更を加え、より不整合表現を奨励し、その計算とメモリ効率を改善する。
具体的には、各タイミングでソースキーと値を適応的に再エンコードするのではなく、表現をアンタングルし、キーを定期的に再エンコードする。
論文 参考訳(メタデータ) (2022-12-12T15:40:30Z) - Tree Structure-Aware Few-Shot Image Classification via Hierarchical
Aggregation [27.868736254566397]
我々は、プレテキストタスクを通して、数ショットの画像分類のための追加の特徴表現を学習する方法に焦点をあてる。
この追加の知識は、数発の学習のパフォーマンスをさらに向上させることができる。
本稿では,FSLとプレテキストタスクの関係を学習する階層木構造認識(HTS)手法を提案する。
論文 参考訳(メタデータ) (2022-07-14T15:17:19Z) - Incorporating Constituent Syntax for Coreference Resolution [50.71868417008133]
本稿では,構成構文構造をグラフベースで組み込む手法を提案する。
また、高次近傍情報を利用して構成木に富んだ構造をエンコードすることも検討する。
on the English and Chinese parts of OntoNotes 5.0 benchmark shows that our proposed model beats a strong baseline or a new-of-the-art performance。
論文 参考訳(メタデータ) (2022-02-22T07:40:42Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。