論文の概要: MegaHan97K: A Large-Scale Dataset for Mega-Category Chinese Character Recognition with over 97K Categories
- arxiv url: http://arxiv.org/abs/2506.04807v1
- Date: Thu, 05 Jun 2025 09:33:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.632445
- Title: MegaHan97K: A Large-Scale Dataset for Mega-Category Chinese Character Recognition with over 97K Categories
- Title(参考訳): MegaHan97K:97K以上のカテゴリを持つメガカテゴリ漢字認識のための大規模データセット
- Authors: Yuyi Zhang, Yongxin Shi, Peirong Zhang, Yixin Zhao, Zhenhua Yang, Lianwen Jin,
- Abstract要約: MegaHan97Kは、前例のない97,455の漢字を網羅した大規模データセットである。
MegaHan97Kは最新のGB18030-2022標準を完全にサポートする最初のデータセットである。
- 参考スコア(独自算出の注目度): 25.98334394285865
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Foundational to the Chinese language and culture, Chinese characters encompass extraordinarily extensive and ever-expanding categories, with the latest Chinese GB18030-2022 standard containing 87,887 categories. The accurate recognition of this vast number of characters, termed mega-category recognition, presents a formidable yet crucial challenge for cultural heritage preservation and digital applications. Despite significant advances in Optical Character Recognition (OCR), mega-category recognition remains unexplored due to the absence of comprehensive datasets, with the largest existing dataset containing merely 16,151 categories. To bridge this critical gap, we introduce MegaHan97K, a mega-category, large-scale dataset covering an unprecedented 97,455 categories of Chinese characters. Our work offers three major contributions: (1) MegaHan97K is the first dataset to fully support the latest GB18030-2022 standard, providing at least six times more categories than existing datasets; (2) It effectively addresses the long-tail distribution problem by providing balanced samples across all categories through its three distinct subsets: handwritten, historical and synthetic subsets; (3) Comprehensive benchmarking experiments reveal new challenges in mega-category scenarios, including increased storage demands, morphologically similar character recognition, and zero-shot learning difficulties, while also unlocking substantial opportunities for future research. To the best of our knowledge, the MetaHan97K is likely the dataset with the largest classes not only in the field of OCR but may also in the broader domain of pattern recognition. The dataset is available at https://github.com/SCUT-DLVCLab/MegaHan97K.
- Abstract(参考訳): 中国語と文化の基礎として、漢字は極端に広範に拡張されたカテゴリーを含み、最新の中国語 GB18030-2022 は87,887 のカテゴリーを含んでいる。
この膨大な数の文字の正確な認識は「メガカテゴリー認識」と呼ばれ、文化遺産保存とデジタル応用にとって非常に重要な課題である。
光文字認識(OCR)の大幅な進歩にもかかわらず、包括的データセットが欠如しているため、メガカテゴリ認識は未探索のままであり、既存の最大データセットには16,151のカテゴリしか含まれていない。
この重要なギャップを埋めるために,前例のない97,455の漢字を網羅した大規模データセットであるMegaHan97Kを紹介した。
1)MegaHan97Kは,最新のGB18030-2022標準を完全にサポートする最初のデータセットであり,既存のデータセットの少なくとも6倍のカテゴリを提供する。(2)手書き,履歴,合成の3つのサブセットを通じて,すべてのカテゴリにバランスのとれたサンプルを提供することによって,長期分布の問題に効果的に対処する。
我々の知る限りでは、MetaHan97KはOCRの分野だけでなく、パターン認識の分野においても最大のクラスを持つデータセットである可能性が高い。
データセットはhttps://github.com/SCUT-DLVCLab/MegaHan97Kで公開されている。
関連論文リスト
- A multi-level multi-label text classification dataset of 19th century Ottoman and Russian literary and critical texts [8.405938712823563]
本稿では,3000以上の文書からなる多レベル多言語テキスト分類データセットを提案する。
このデータセットは19世紀のトルコ語とロシア語の文学的および批判的なテキストを特徴としている。
このデータセットに大規模言語モデル(LLM)を適用した最初の研究である。
論文 参考訳(メタデータ) (2024-07-21T12:14:45Z) - Oracle Bone Inscriptions Multi-modal Dataset [58.20314888996118]
オラクルの骨碑文(Oracle bone inscriptions, OBI)は中国最古の書記体系であり、初期の上海の歴史や古史の貴重な実例を記している。
本稿では,10,077個のオラクル骨の注釈情報を含むOracle Bone Inscriptions Multi-modalデータセットを提案する。
このデータセットは、OBIの文字検出と認識、ラビングDenoising、キャラクタマッチング、キャラクタ生成、読み込みシーケンス予測、ミスキャラクタ補完タスクなど、OBIの分野に関連するさまざまなAI関連研究タスクに使用することができる。
論文 参考訳(メタデータ) (2024-07-04T12:47:32Z) - Textual Knowledge Matters: Cross-Modality Co-Teaching for Generalized Visual Class Discovery [65.16724941038052]
Generalized Category Discovery (GCD)は、既知のカテゴリと未知のカテゴリの両方からラベルのないデータをクラスタすることを目的としている。
現在のGCD法は、新しい視覚カテゴリーを発見する際に、人間の認知過程の多様性知覚性を無視する視覚的手がかりのみに依存している。
マルチモーダルなGCDを実現するための2段階のTextGCDフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-12T07:06:50Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation
of Videos [106.06278332186106]
マルチモーダル・アウトプット(MSMO)を用いたマルチモーダル・サマリゼーションが有望な研究方向として浮上している。
既存のパブリックMSMOデータセットには多くの制限がある。
textbfMMSumデータセットを精巧にキュレートした。
論文 参考訳(メタデータ) (2023-06-07T07:43:11Z) - Wukong: 100 Million Large-scale Chinese Cross-modal Pre-training Dataset
and A Foundation Framework [99.38817546900405]
本稿では,異なるマルチモーダル事前学習手法のベンチマークを行うため,中国の大規模クロスモーダルデータセットを提案する。
Wukongという大規模な中国のクロスモーダルデータセットをリリースし、Webから1億の中国語画像テキストペアを格納しています。
論文 参考訳(メタデータ) (2022-02-14T14:37:15Z) - The Semi-Supervised iNaturalist Challenge at the FGVC8 Workshop [42.02670649470055]
Semi-iNatは、クラス、きめ細かいカテゴリ、ラベル付きデータとラベルなしデータのドメインシフトの長い分布を持つ、半教師付き分類のための挑戦的なデータセットである。
このデータセットは、CVPR 2021のFGVC8ワークショップで開催される、半教師付き認識チャレンジの第2回の背後にある。
論文 参考訳(メタデータ) (2021-06-02T17:59:41Z) - HRCenterNet: An Anchorless Approach to Chinese Character Segmentation in
Historical Documents [0.7734726150561089]
本稿では,アンカーレス物体検出法と並列化アーキテクチャを組み合わせたHRCenterNetというモデルを提案する。
データセットは、3000以上の中国史料と100万以上の漢字で構成されている。
本モデルでは,IoU 0.81を平均で達成し,他のモデルと比較して最高速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2020-12-10T15:21:02Z) - Document Classification for COVID-19 Literature [15.458071120159307]
本稿では,LitCovidデータセットを用いた複数ラベル文書分類モデルの解析を行う。
トレーニング済みの言語モデルは、このデータセットで微調整され、他のすべてのベースラインより優れています。
また、LitCovidドキュメント上で最高のパフォーマンスモデルによって作成された50のエラーについても調べる。
論文 参考訳(メタデータ) (2020-06-15T20:03:28Z) - CLUENER2020: Fine-grained Named Entity Recognition Dataset and Benchmark
for Chinese [18.673425507885938]
CLUE組織(CLUENER 2020)のNERデータセットを中国語で名前付きエンティティ認識に導入する。
CLUENER 2020には10のカテゴリがあります。人、組織、場所といった一般的なラベルとは別に、より多様なカテゴリが含まれています。
これは現在の中国のNERデータセットよりも難しく、現実世界のアプリケーションをよりよく反映できる。
論文 参考訳(メタデータ) (2020-01-13T15:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。