論文の概要: AMR-CCR: Anchored Modular Retrieval for Continual Chinese Character Recognition
- arxiv url: http://arxiv.org/abs/2603.07497v1
- Date: Sun, 08 Mar 2026 06:48:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.692976
- Title: AMR-CCR: Anchored Modular Retrieval for Continual Chinese Character Recognition
- Title(参考訳): AMR-CCR:連続した漢字認識のためのアンコール型モジュール検索
- Authors: Yuchuan Wu, Yinglian Zhu, Haiyang Yu, Ke Niu, Bin Li, Xiangyang Xue,
- Abstract要約: 連続中国語文字認識(Continal Chinese Character Recognition、Continal CCR)は、スクリプトステージ付き、クラスインクリメンタルセッティングである。
組込み型辞書マッチングによる認識を行うモジュール型検索フレームワークであるAMR-CCRを提案する。
軽量なスクリプト条件注入モジュール(SIA+SAR)は、ステージ間の埋め込み互換性を維持しながら、新たに搭載されたスクリプトを校正する。
- 参考スコア(独自算出の注目度): 35.41429230788358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ancient Chinese character recognition is a core capability for cultural heritage digitization, yet real-world workflows are inherently non-stationary: newly excavated materials are continuously onboarded, bringing new classes in different scripts, and expanding the class space over time. We formalize this process as Continual Chinese Character Recognition (Continual CCR), a script-staged, class-incremental setting that couples two challenges: (i) scalable learning under continual class growth with subtle inter-class differences and scarce incremental data, and (ii) pronounced intra-class diversity caused by writing-style variations across writers and carrier conditions. To overcome the limitations of conventional closed-set classification, we propose AMR-CCR, an anchored modular retrieval framework that performs recognition via embedding-based dictionary matching in a shared multimodal space, allowing new classes to be added by simply extending the dictionary. AMR-CCR further introduces a lightweight script-conditioned injection module (SIA+SAR) to calibrate newly onboarded scripts while preserving cross-stage embedding compatibility, and an image-derived multi-prototype dictionary that clusters within-class embeddings to better cover diverse style modes. To support systematic evaluation, we build EvoCON, a six-stage benchmark for continual script onboarding, covering six scripts (OBC, BI, SS, SAC, WSC, CS), augmented with meaning/shape descriptions and an explicit zero-shot split for unseen characters without image exemplars.
- Abstract(参考訳): 古代中国の文字認識は文化遺産のデジタル化の核となる能力であるが、現実世界のワークフローは本質的に非定常的であり、新たに発掘された素材は継続的に搭載され、異なるスクリプトに新しいクラスを持ち込み、時間とともにクラス空間を広げている。
私たちはこのプロセスを,2つの課題に対処するスクリプトステージのクラスインクリメンタルな設定である連続中国語文字認識(Continual CCR)として定式化する。
(i)クラス間の微妙な違いと漸進的なデータが少ない連続的なクラス成長下でのスケーラブルな学習
(二)作家の書き方やキャリアーの条件の相違により、階級内多様性が顕著になる。
従来のクローズドセット分類の限界を克服するため,共有マルチモーダル空間における埋め込み型辞書マッチングによる認識を行うモジュール型検索フレームワークであるAMR-CCRを提案する。
AMR-CCRはさらに、クロスステージな埋め込み互換性を維持しつつ、新たに搭載したスクリプトを校正する軽量なスクリプト条件注入モジュール(SIA+SAR)や、クラス内の埋め込みをクラスタ化して様々なスタイルモードをよりよくカバーする画像由来のマルチプロトタイプ辞書も導入している。
システム評価を支援するため, 連続スクリプトオンボーディングのための6段階のベンチマークであるEvoCONを構築し, 6つのスクリプト (OBC, BI, SS, SAC, WSC, CS) を対象とし, 意味/形状記述を付加し, 画像例のない未確認文字を明示的にゼロショット分割する。
関連論文リスト
- Contextualized Multimodal Lifelong Person Re-Identification in Hybrid Clothing States [2.6399783378460158]
身元再確認(ReID)は、衣料品変更(CCReID)による現実世界の監視システムにいくつかの課題がある
既存の手法では、特定のアプリケーション向けにモデルを開発するか、CCReIDを独自のサブプロブレムとして扱うかのいずれかであった。
LReID-Hybridタスクは,連続的な環境で学習しながら,SCとCCの両方を達成するためのモデルを開発することを目的としている。
論文 参考訳(メタデータ) (2025-09-14T12:46:39Z) - DCSCR: A Class-Specific Collaborative Representation based Network for Image Set Classification [14.11016012242278]
本稿では,Deep Class-specific Collaborative Representation (DCSCR) ネットワークと呼ばれる,数発のICCアプローチを提案する。
DCSCRは、完全な畳み込み機能抽出モジュール、グローバル機能学習モジュール、クラス固有の協調表現に基づくメートル法学習モジュールから構成される。
提案手法の有効性を実証するために、よく知られた数発のICCデータセットの実験を行った。
論文 参考訳(メタデータ) (2025-08-18T09:09:55Z) - Classifying the Unknown: In-Context Learning for Open-Vocabulary Text and Symbol Recognition [3.667678728817253]
文書中の新しいスクリプトパターンのシーケンスを分類するために,Multimodal In-Context Learning (MICL)を活用するマルチモーダルモデルであるRosettaを導入する。
提案手法の重要な強みは,オープン語彙分類を可能にするコンテキスト認識トークンライザ(CAT)を使用することである。
結果として、新しいアルファベットや言語の認識などのアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2025-04-09T12:58:25Z) - Embracing Language Inclusivity and Diversity in CLIP through Continual
Language Learning [58.92843729869586]
視覚言語事前学習モデル (VL-PTMs) は近年、先進的なマルチモーダル研究を行っているが、英語のようないくつかの言語での習得は、より広いコミュニティにおける適用性を制限している。
我々は,連続言語学習(CLL)によってVL-PTMの言語能力を拡張することを提案する。
我々は,MSCOCOおよびXM3600データセットに基づく36言語をカバーするCLLベンチマークを構築し,多言語画像テキスト検索性能を評価する。
論文 参考訳(メタデータ) (2024-01-30T17:14:05Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for
Image-Text Retrieval [108.48540976175457]
クロスモーダル表現を改善するために,共用ダイバーシティ・センシティブ・モーメント・コンストラシティブ・ラーニング(CODER)を提案する。
両モードの動的辞書を導入し、画像テキストペアのスケールを拡大し、適応的な負のペア重み付けにより多様性に敏感性を実現する。
MSCOCOとFlicker30Kという2つの人気のあるベンチマークで実施された実験は、CODERが最先端のアプローチを著しく上回っていることを証明している。
論文 参考訳(メタデータ) (2022-08-21T08:37:50Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - Unified Multi-Criteria Chinese Word Segmentation with BERT [82.16846720508748]
連続した文字からなる中国語文における単語境界を見つけることを目的としている。
本稿では,統合フレームワークと事前学習言語モデルの優位性を組み合わせて,BERTに基づく統一MCCWSモデルを提案する。
多様な基準を持つ8つのデータセットに対する実験により,本手法がMCCWSの新たな最先端結果が得られることが示された。
論文 参考訳(メタデータ) (2020-04-13T07:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。