論文の概要: Toward Zero-shot Character Recognition: A Gold Standard Dataset with
Radical-level Annotations
- arxiv url: http://arxiv.org/abs/2308.00655v1
- Date: Tue, 1 Aug 2023 16:41:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 13:34:21.376511
- Title: Toward Zero-shot Character Recognition: A Gold Standard Dataset with
Radical-level Annotations
- Title(参考訳): ゼロショット文字認識に向けて:ラディカルレベルアノテーション付きゴールド標準データセット
- Authors: Xiaolei Diao, Daqian Shi, Jian Li, Lida Shi, Mingzhe Yue, Ruihua Qi,
Chuntao Li, Hao Xu
- Abstract要約: 本稿では,ラジカルレベルのアノテーションと文字レベルのアノテーションの両方を含む古代中国語の文字画像データセットを構築する。
ACCIDの適応性を高めるため,トレーニングサンプルを増強するスプライシングベースの合成文字アルゴリズムを提案し,画像の画質向上のために画像デノナイズ手法を適用した。
- 参考スコア(独自算出の注目度): 5.761679637905164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optical character recognition (OCR) methods have been applied to diverse
tasks, e.g., street view text recognition and document analysis. Recently,
zero-shot OCR has piqued the interest of the research community because it
considers a practical OCR scenario with unbalanced data distribution. However,
there is a lack of benchmarks for evaluating such zero-shot methods that apply
a divide-and-conquer recognition strategy by decomposing characters into
radicals. Meanwhile, radical recognition, as another important OCR task, also
lacks radical-level annotation for model training. In this paper, we construct
an ancient Chinese character image dataset that contains both radical-level and
character-level annotations to satisfy the requirements of the above-mentioned
methods, namely, ACCID, where radical-level annotations include radical
categories, radical locations, and structural relations. To increase the
adaptability of ACCID, we propose a splicing-based synthetic character
algorithm to augment the training samples and apply an image denoising method
to improve the image quality. By introducing character decomposition and
recombination, we propose a baseline method for zero-shot OCR. The experimental
results demonstrate the validity of ACCID and the baseline model quantitatively
and qualitatively.
- Abstract(参考訳): 光文字認識(OCR)法は、ストリートビューテキスト認識や文書解析など、様々なタスクに応用されている。
近年、ゼロショットOCRは、データ分散の不均衡を伴う実用的なOCRシナリオを考えるため、研究コミュニティの関心を喚起している。
しかし、文字をラジカルに分解することで分割・コンカレント認識戦略を適用するようなゼロショット手法を評価するためのベンチマークが欠如している。
一方、他の重要なOCRタスクとしての過激な認識は、モデルトレーニングに対する過激なレベルのアノテーションを欠いている。
本稿では,従来の手法であるACCIDの要件を満たすために,ラジカルレベルのアノテーションと文字レベルのアノテーションの両方を含む古代中国語の文字画像データセットを構築し,ラジカルレベルのアノテーションには,ラジカルなカテゴリ,ラジカルな位置,構造的関係が含まれる。
ACCIDの適応性を高めるため,トレーニングサンプルを増強するスプライシングベースの合成文字アルゴリズムを提案し,画像の画質向上のために画像デノナイズ手法を適用した。
文字分解と組換えを導入し,ゼロショットOCRのベースライン手法を提案する。
実験の結果,ACCIDとベースラインモデルの定量的および定性的妥当性が示された。
関連論文リスト
- Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing [71.29488677105127]
既存のシーンテキスト認識(STR)手法は、特に芸術的で歪んだ文字に対して、挑戦的なテキストを認識するのに苦労している。
人的コストを伴わずに、合成データと実際のラベルなしデータを活用して、対照的な学習ベースのSTRフレームワークを提案する。
本手法は,共通ベンチマークとUnion14M-Benchmarkで平均精度94.7%,70.9%のSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-11-23T15:24:47Z) - DLoRA-TrOCR: Mixed Text Mode Optical Character Recognition Based On Transformer [12.966765239586994]
マルチフォント、混合シーン、複雑なレイアウトは、従来のOCRモデルの認識精度に深刻な影響を及ぼす。
本稿では,事前学習したOCR変換器,すなわちDLoRA-TrOCRに基づくパラメータ効率の良い混合テキスト認識手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T09:28:16Z) - Symmetrical Bidirectional Knowledge Alignment for Zero-Shot Sketch-Based
Image Retrieval [69.46139774646308]
本稿ではゼロショットスケッチベース画像検索(ZS-SBIR)の問題点について検討する。
目に見えないカテゴリのスケッチをクエリとして使用して、同じカテゴリのイメージにマッチさせることが目的だ。
ゼロショットスケッチに基づく画像検索(SBKA)のための新しい対称双方向知識アライメントを提案する。
論文 参考訳(メタデータ) (2023-12-16T04:50:34Z) - Chinese Character Recognition with Radical-Structured Stroke Trees [51.8541677234175]
我々は各漢字を,その根本的構造に従って整理されたストロークツリーとして表現する。
本稿では,2段階の分解フレームワークを提案し,特徴-ラディカルデコーダがラジカル構造とラジカル領域を知覚する。
Radical-to-Stroke Decoderはさらに、ラジカル領域の特徴に応じてストロークシーケンスを予測する。
論文 参考訳(メタデータ) (2022-11-24T10:28:55Z) - STAR: Zero-Shot Chinese Character Recognition with Stroke- and
Radical-Level Decompositions [14.770409889132539]
脳卒中と急進的な分解を組み合わせ,効果的なゼロショット漢字認識法を提案する。
数値計算の結果,提案手法は文字と急進的なゼロショット設定の両方において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-10-16T08:57:46Z) - RZCR: Zero-shot Character Recognition via Radical-based Reasoning [17.305603529254608]
RZCRは、視覚的意味融合に基づくラジカル情報抽出器(RIE)と知識グラフ文字推論器(KGR)から構成される。
RZCRは、特に少数の文字データセットにおいて、有望な実験結果を示す。
論文 参考訳(メタデータ) (2022-07-12T21:12:05Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - An Evaluation of OCR on Egocentric Data [30.637021477342035]
本稿では,エゴセントリックデータに対する最先端OCR手法の評価を行う。
既存のOCR手法は、処理対象に対して頻繁に観察される回転テキストと競合することを示す。
我々は、正規化編集距離誤差を半減する事前学習されたOCRモデルに適用可能な、シンプルな回転・合流手順を提案する。
論文 参考訳(メタデータ) (2022-06-11T10:37:20Z) - Assessing a Single Image in Reference-Guided Image Synthesis [14.936460594115953]
本稿では,単一生成画像の品質を定量的に評価するための,参照誘導画像合成アセスメント(RISA)を提案する。
このアノテーションは監視信号として大きすぎるため、1)粗いラベルを洗練するためのピクセルワイズスキームと、2)ナイーブ回帰器を置き換える複数のバイナリ分類器の2つの手法を導入する。
RISAは人間の好みと非常に整合しており、モデル間での転送も良好である。
論文 参考訳(メタデータ) (2021-12-08T08:22:14Z) - Neural Model Reprogramming with Similarity Based Mapping for
Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。
ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。
提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-08T05:07:35Z) - Separating Content from Style Using Adversarial Learning for Recognizing
Text in the Wild [103.51604161298512]
画像中の複数の文字の生成と認識のための逆学習フレームワークを提案する。
我々のフレームワークは、新しい最先端の認識精度を達成するために、最近の認識手法に統合することができる。
論文 参考訳(メタデータ) (2020-01-13T12:41:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。