論文の概要: RZCR: Zero-shot Character Recognition via Radical-based Reasoning
- arxiv url: http://arxiv.org/abs/2207.05842v3
- Date: Fri, 28 Apr 2023 20:09:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 19:48:28.395069
- Title: RZCR: Zero-shot Character Recognition via Radical-based Reasoning
- Title(参考訳): RZCR:ラジカル推論によるゼロショット文字認識
- Authors: Xiaolei Diao, Daqian Shi, Hao Tang, Qiang Shen, Yanzeng Li, Lei Wu,
Hao Xu
- Abstract要約: RZCRは、視覚的意味融合に基づくラジカル情報抽出器(RIE)と知識グラフ文字推論器(KGR)から構成される。
RZCRは、特に少数の文字データセットにおいて、有望な実験結果を示す。
- 参考スコア(独自算出の注目度): 17.305603529254608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The long-tail effect is a common issue that limits the performance of deep
learning models on real-world datasets. Character image datasets are also
affected by such unbalanced data distribution due to differences in character
usage frequency. Thus, current character recognition methods are limited when
applied in the real world, especially for the categories in the tail that lack
training samples, e.g., uncommon characters. In this paper, we propose a
zero-shot character recognition framework via radical-based reasoning, called
RZCR, to improve the recognition performance of few-sample character categories
in the tail. Specifically, we exploit radicals, the graphical units of
characters, by decomposing and reconstructing characters according to
orthography. RZCR consists of a visual semantic fusion-based radical
information extractor (RIE) and a knowledge graph character reasoner (KGR). RIE
aims to recognize candidate radicals and their possible structural relations
from character images in parallel. The results are then fed into KGR to
recognize the target character by reasoning with a knowledge graph. We validate
our method on multiple datasets, and RZCR shows promising experimental results,
especially on few-sample character datasets.
- Abstract(参考訳): ロングテール効果は、現実世界のデータセットにおけるディープラーニングモデルのパフォーマンスを制限する一般的な問題である。
文字画像データセットは、文字使用頻度の違いにより、そのような不均衡なデータ分布に影響される。
したがって、現在の文字認識方法は、現実世界、特にトレーニングサンプルが不足している尾のカテゴリ、例えば珍しい文字に対して適用される場合に制限される。
本稿では,RZCRと呼ばれる急進的推論によるゼロショット文字認識フレームワークを提案する。
具体的には,文字のグラフィカル単位であるラジカルを,正書法に従って分解・再構成することで活用する。
RZCRは、視覚意味融合に基づくラジカル情報抽出器(RIE)と知識グラフ文字推論器(KGR)から構成される。
RIEは、文字画像から候補ラジカルとその構造的関係を並列に認識することを目的としている。
結果はKGRに入力され、知識グラフで推論して対象の文字を認識する。
提案手法を複数のデータセットで検証し,rzcrは有望な実験結果を示す。
関連論文リスト
- DLoRA-TrOCR: Mixed Text Mode Optical Character Recognition Based On Transformer [12.966765239586994]
マルチフォント、混合シーン、複雑なレイアウトは、従来のOCRモデルの認識精度に深刻な影響を及ぼす。
本稿では,事前学習したOCR変換器,すなわちDLoRA-TrOCRに基づくパラメータ効率の良い混合テキスト認識手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T09:28:16Z) - Deep Learning-Driven Approach for Handwritten Chinese Character Classification [0.0]
手書き文字認識は、機械学習研究者にとって難しい問題である。
多数のユニークな文字クラスが存在するため、ロジカルスクリプトや中韓文字シーケンスのようなデータによっては、HCR問題に新たな複雑さをもたらす。
本稿では、モデルアーキテクチャ、データ前処理ステップ、設計手順のテストを導入し、詳細な文字画像分類のための高度にスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-30T15:29:32Z) - Graph-level Protein Representation Learning by Structure Knowledge
Refinement [50.775264276189695]
本稿では、教師なしの方法でグラフ全体の表現を学習することに焦点を当てる。
本稿では、データ構造を用いて、ペアが正か負かの確率を決定する構造知識精製(Structure Knowledge Refinement, SKR)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-05T09:05:33Z) - Exploring Fine-Grained Representation and Recomposition for
Cloth-Changing Person Re-Identification [85.41212650837704]
補助情報のない2つの制限に対処するために,新しいFIne-fine Representation and Recomposition (FIRe$2$) フレームワークを提案する。
FIRe$2$は、広く使われている5つのRe-IDベンチマークで最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-08-21T12:59:48Z) - Toward Zero-shot Character Recognition: A Gold Standard Dataset with
Radical-level Annotations [5.761679637905164]
本稿では,ラジカルレベルのアノテーションと文字レベルのアノテーションの両方を含む古代中国語の文字画像データセットを構築する。
ACCIDの適応性を高めるため,トレーニングサンプルを増強するスプライシングベースの合成文字アルゴリズムを提案し,画像の画質向上のために画像デノナイズ手法を適用した。
論文 参考訳(メタデータ) (2023-08-01T16:41:30Z) - Multi-Domain Norm-referenced Encoding Enables Data Efficient Transfer
Learning of Facial Expression Recognition [62.997667081978825]
本稿では,表情認識における伝達学習のための生物学的メカニズムを提案する。
提案アーキテクチャでは,人間の脳が,頭部形状の異なる表情を自然に認識する方法について解説する。
本モデルでは, FERGデータセットの分類精度92.15%を極端に高いデータ効率で達成する。
論文 参考訳(メタデータ) (2023-04-05T09:06:30Z) - Improving Scene Text Recognition for Character-Level Long-Tailed
Distribution [35.14058653707104]
本稿では,2つの専門家を用いた新しい文脈認識フリーエキスパートネットワーク(CAFE-Net)を提案する。
CAFE-Netは多数の文字を含む言語でのSTR性能を改善する。
論文 参考訳(メタデータ) (2023-03-31T06:11:33Z) - Improving GANs for Long-Tailed Data through Group Spectral
Regularization [51.58250647277375]
本稿では, スペクトル爆発によるモード崩壊を防止する新しいグループスペクトル正規化器 (gSR) を提案する。
我々は,gSRが既存の拡張および正規化技術と効果的に組み合わせることで,長期化データ上での最先端の画像生成性能が向上することを発見した。
論文 参考訳(メタデータ) (2022-08-21T17:51:05Z) - Let Invariant Rationale Discovery Inspire Graph Contrastive Learning [98.10268114789775]
ハイパフォーマンスな拡張は、インスタンス識別に関するアンカーグラフの健全な意味を保存すべきである。
新たなフレームワーク Rationale-aware Graph Contrastive Learning (RGCL) を提案する。
RGCLは有理数生成器を使用して、グラフのインスタンス識別に関する健全な特徴を論理として明らかにし、対照的な学習のための有理数認識ビューを生成する。
論文 参考訳(メタデータ) (2022-06-16T01:28:40Z) - Separating Content from Style Using Adversarial Learning for Recognizing
Text in the Wild [103.51604161298512]
画像中の複数の文字の生成と認識のための逆学習フレームワークを提案する。
我々のフレームワークは、新しい最先端の認識精度を達成するために、最近の認識手法に統合することができる。
論文 参考訳(メタデータ) (2020-01-13T12:41:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。