論文の概要: Multi-Modal Multi-Granularity Tokenizer for Chu Bamboo Slip Scripts
- arxiv url: http://arxiv.org/abs/2409.01011v1
- Date: Mon, 2 Sep 2024 07:42:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 07:59:10.368161
- Title: Multi-Modal Multi-Granularity Tokenizer for Chu Bamboo Slip Scripts
- Title(参考訳): チューバンボスリップスクリプトのためのマルチモーダルマルチグラニュリティトケナイザ
- Authors: Yingfa Chen, Chenlong Hu, Cong Feng, Chenyang Song, Shi Yu, Xu Han, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 本研究は、古代中国の春・秋・戦国時代(紀元前771-256年)に用いられた中竹の文字に焦点を当てたものである。
我々のトークンライザはまず文字検出を採用して文字境界の特定を行い、次に文字レベルとサブキャラクタレベルの両方で文字認識を行う。
学術コミュニティを支援するために,100K以上の注釈付き文字イメージスキャンを備えたCBSの最初の大規模データセットも収集した。
- 参考スコア(独自算出の注目度): 65.10991154918737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents a multi-modal multi-granularity tokenizer specifically designed for analyzing ancient Chinese scripts, focusing on the Chu bamboo slip (CBS) script used during the Spring and Autumn and Warring States period (771-256 BCE) in Ancient China. Considering the complex hierarchical structure of ancient Chinese scripts, where a single character may be a combination of multiple sub-characters, our tokenizer first adopts character detection to locate character boundaries, and then conducts character recognition at both the character and sub-character levels. Moreover, to support the academic community, we have also assembled the first large-scale dataset of CBSs with over 100K annotated character image scans. On the part-of-speech tagging task built on our dataset, using our tokenizer gives a 5.5% relative improvement in F1-score compared to mainstream sub-word tokenizers. Our work not only aids in further investigations of the specific script but also has the potential to advance research on other forms of ancient Chinese scripts.
- Abstract(参考訳): 本研究では,古代中国における春・秋・戦国期(紀元前771-256年)に用いられた中竹スリップ(CBS)スクリプトに着目し,古代中国文字の分析に特化して設計された多モード多粒性トークンについて述べる。
一つの文字が複数のサブ文字の組み合わせである古代中国語の複雑な階層構造を考えると、トークンライザはまず文字検出を採用して文字境界の特定を行い、文字レベルとサブ文字レベルの両方で文字認識を行う。
さらに,学術コミュニティを支援するために,100K以上の注釈付き文字画像スキャンを備えたCBSの大規模データセットも収集した。
我々のデータセット上に構築された音声タグ付けタスクでは、私たちのトークンライザを使うことで、主流のサブワードトークンライザと比較してF1スコアが5.5%向上します。
我々の研究は、特定の文字のさらなる調査に役立つだけでなく、他の形態の漢文についての研究を進める可能性も持っている。
関連論文リスト
- HierCode: A Lightweight Hierarchical Codebook for Zero-shot Chinese Text Recognition [47.86479271322264]
我々は,漢字の自然的階層性を利用した,新規で軽量なコードブックであるHierCodeを提案する。
HierCodeは階層的なバイナリツリーエンコーディングとプロトタイプ学習を活用して、各文字に特徴的な情報表現を生成するマルチホットエンコーディング戦略を採用している。
このアプローチは、共有ラジカルと構造を利用してOOV文字のゼロショット認識を促進するだけでなく、視覚的特徴と類似性を計算することでラインレベルの認識タスクも優れている。
論文 参考訳(メタデータ) (2024-03-20T17:20:48Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - DeepSolo++: Let Transformer Decoder with Explicit Points Solo for Multilingual Text Spotting [112.45423990924283]
DeepSolo++は単純なDETRライクなベースラインで、テキスト検出、認識、スクリプト識別を同時に行うために、明示的なポイントを持つ1つのデコーダを単独で使用することができる。
本手法は、英語のシーンだけでなく、複雑なフォント構造と中国語などの1000レベルの文字クラスで書き起こしを習得する。
論文 参考訳(メタデータ) (2023-05-31T15:44:00Z) - Joint Chinese Word Segmentation and Span-based Constituency Parsing [11.080040070201608]
本研究は,中国語の単語セグメント化とSpanに基づくコンストラクタシーパーシングを共同で行う手法を提案する。
実験により,提案アルゴリズムは, CTB 5.1上での関節分割と補間のための最近のモデルよりも優れていた。
論文 参考訳(メタデータ) (2022-11-03T08:19:00Z) - GCDT: A Chinese RST Treebank for Multigenre and Multilingual Discourse
Parsing [9.367612782346207]
GCDTは、修辞構造理論(RST)の枠組みにおいて、中国語における最大の階層的談話木バンクである
本稿では,このデータセットの解析実験について報告する。例えば,中国語のRST解析のための最新技術(SOTA)スコアと,英語のGUMデータセットに対するRTT解析である。
論文 参考訳(メタデータ) (2022-10-19T10:27:41Z) - ZiGAN: Fine-grained Chinese Calligraphy Font Generation via a Few-shot
Style Transfer Approach [7.318027179922774]
ZiGANは、強力なエンドツーエンドの漢字フォント生成フレームワークである。
微粒なターゲットスタイルの文字を生成するために手動操作や冗長な前処理を一切必要としない。
提案手法は,数発の漢字スタイル転送における最先端の一般化能力を有する。
論文 参考訳(メタデータ) (2021-08-08T09:50:20Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。