論文の概要: STAR: Zero-Shot Chinese Character Recognition with Stroke- and
Radical-Level Decompositions
- arxiv url: http://arxiv.org/abs/2210.08490v1
- Date: Sun, 16 Oct 2022 08:57:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 19:19:45.762713
- Title: STAR: Zero-Shot Chinese Character Recognition with Stroke- and
Radical-Level Decompositions
- Title(参考訳): STAR:ストロークおよびラジカルレベル分解によるゼロショット漢字認識
- Authors: Jinshan Zeng, Ruiying Xu, Yu Wu, Hongwei Li, Jiaxing Lu
- Abstract要約: 脳卒中と急進的な分解を組み合わせ,効果的なゼロショット漢字認識法を提案する。
数値計算の結果,提案手法は文字と急進的なゼロショット設定の両方において最先端の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 14.770409889132539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot Chinese character recognition has attracted rising attention in
recent years. Existing methods for this problem are mainly based on either
certain low-level stroke-based decomposition or medium-level radical-based
decomposition. Considering that the stroke- and radical-level decompositions
can provide different levels of information, we propose an effective zero-shot
Chinese character recognition method by combining them. The proposed method
consists of a training stage and an inference stage. In the training stage, we
adopt two similar encoder-decoder models to yield the estimates of stroke and
radical encodings, which together with the true encodings are then used to
formalize the associated stroke and radical losses for training. A similarity
loss is introduced to regularize stroke and radical encoders to yield features
of the same characters with high correlation. In the inference stage, two key
modules, i.e., the stroke screening module (SSM) and feature matching module
(FMM) are introduced to tackle the deterministic and confusing cases
respectively. In particular, we introduce an effective stroke rectification
scheme in FMM to enlarge the candidate set of characters for final inference.
Numerous experiments over three benchmark datasets covering the handwritten,
printed artistic and street view scenarios are conducted to demonstrate the
effectiveness of the proposed method. Numerical results show that the proposed
method outperforms the state-of-the-art methods in both character and radical
zero-shot settings, and maintains competitive performance in the traditional
seen character setting.
- Abstract(参考訳): 近年,ゼロショット漢字認識が注目されている。
この問題に対する既存の方法は、主に低レベルのストロークに基づく分解または中レベルのラジカルベースの分解に基づいている。
脳卒中と急進レベルの分解が異なるレベルの情報を提供できることを考慮し、それらを組み合わせて効果的なゼロショット漢字認識法を提案する。
提案手法は,訓練段階と推論段階から構成される。
訓練段階では、ストロークとラジカルのエンコーディングを推定するために、2つの類似のエンコーダ・デコーダモデルを採用し、真のエンコーディングと共に関連するストロークとトレーニングの急進的損失を形式化する。
類似性損失を導入し、ストロークとラジカルエンコーダを正則化し、同じ文字の特徴を高い相関で得る。
推論段階では、それぞれ決定論的および紛らわしいケースに取り組むために、ストロークスクリーニングモジュール(SSM)と特徴マッチングモジュール(FMM)の2つのキーモジュールを導入する。
特に、FMMにおいて、最終推論のための文字の候補集合を拡大する効果的なストローク補正方式を導入する。
提案手法の有効性を実証するために,手書き,印刷,ストリートビューのシナリオをカバーする3つのベンチマークデータセットに関する多数の実験を行った。
解析の結果,提案手法は文字設定と急進的なゼロショット設定の両方において最先端の手法より優れており,従来の文字設定では競合性能が維持されていることがわかった。
関連論文リスト
- Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - Linguistic-Based Mild Cognitive Impairment Detection Using Informative
Loss [2.8893654860442872]
我々は,I-CONECT研究プロジェクト内で収集された映像インタビューから生成されたテキストを解析するフレームワークを提案する。
我々のフレームワークは、平均面積84.75%のMCIとNCを区別することができる。
論文 参考訳(メタデータ) (2024-01-23T16:30:22Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - Toward Zero-shot Character Recognition: A Gold Standard Dataset with
Radical-level Annotations [5.761679637905164]
本稿では,ラジカルレベルのアノテーションと文字レベルのアノテーションの両方を含む古代中国語の文字画像データセットを構築する。
ACCIDの適応性を高めるため,トレーニングサンプルを増強するスプライシングベースの合成文字アルゴリズムを提案し,画像の画質向上のために画像デノナイズ手法を適用した。
論文 参考訳(メタデータ) (2023-08-01T16:41:30Z) - A Novel Plagiarism Detection Approach Combining BERT-based Word
Embedding, Attention-based LSTMs and an Improved Differential Evolution
Algorithm [11.142354615369273]
本稿では,アテンション機構に基づく長短期メモリ(LSTM)とトランスフォーマー(BERT)ワード埋め込みによる双方向エンコーダ表現に基づくプラギアリズム検出手法を提案する。
BERTは下流タスクに含まれることができ、タスク固有の構造として微調整され、訓練されたBERTモデルは様々な言語特性を検出することができる。
論文 参考訳(メタデータ) (2023-05-03T18:26:47Z) - Chinese Character Recognition with Radical-Structured Stroke Trees [51.8541677234175]
我々は各漢字を,その根本的構造に従って整理されたストロークツリーとして表現する。
本稿では,2段階の分解フレームワークを提案し,特徴-ラディカルデコーダがラジカル構造とラジカル領域を知覚する。
Radical-to-Stroke Decoderはさらに、ラジカル領域の特徴に応じてストロークシーケンスを予測する。
論文 参考訳(メタデータ) (2022-11-24T10:28:55Z) - Asymmetric Modality Translation For Face Presentation Attack Detection [55.09300842243827]
顔提示攻撃検出(PAD)は、悪意のあるユーザによって顔認識システムが偽造されるのを防ぐための重要な手段である。
両モードシナリオにおける非対称なモダリティ変換に基づく新しいフレームワークを提案する。
本手法は,異なる評価プロトコル下での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-10-18T08:59:09Z) - Partner-Assisted Learning for Few-Shot Image Classification [54.66864961784989]
人間の視覚能力を模倣し、徹底的な人間のアノテーションを必要とせずに効果的なモデルを学ぶために、わずかなショットラーニングが研究されている。
本稿では,新しいクラスのプロトタイプをラベル付きサンプルから推定できるように,要素表現を得るためのトレーニング戦略の設計に焦点をあてる。
本稿では,まずパートナーエンコーダのペアワイド類似性をモデル化し,ソフトアンカーとして機能する特徴を抽出し,その出力をソフトアンカーと整列させ,分類性能を最大化しようとする2段階トレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T22:46:19Z) - Zero-Shot Chinese Character Recognition with Stroke-Level Decomposition [37.808021793372504]
本稿では,各文字をストローク列に分解することで,ストロークに基づく手法を提案する。
我々は、予測されたストロークシーケンスを特定の文字に変換するためにマッチングベースの戦略を用いる。
提案手法は、文字をストロークに分解できる他の言語に容易に一般化できる。
論文 参考訳(メタデータ) (2021-06-22T08:49:03Z) - Pseudo-Convolutional Policy Gradient for Sequence-to-Sequence
Lip-Reading [96.48553941812366]
唇読解は唇運動系列から音声内容を推測することを目的としている。
seq2seqモデルの伝統的な学習プロセスには2つの問題がある。
本稿では,これら2つの問題に対処するために,PCPGに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T09:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。