論文の概要: An open dataset for the evolution of oracle bone characters: EVOBC
- arxiv url: http://arxiv.org/abs/2401.12467v2
- Date: Tue, 13 Feb 2024 08:21:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 18:29:17.407084
- Title: An open dataset for the evolution of oracle bone characters: EVOBC
- Title(参考訳): oracle bone characterの進化のためのオープンデータセット:evobc
- Authors: Haisu Guan, Jinpeng Wan, Yuliang Liu, Pengjie Wang, Kaile Zhang,
Zhebin Kuang, Xinyu Wang, Xiang Bai, Lianwen Jin
- Abstract要約: 現存する最古の漢字は、他の東アジアの言語と密接に関連しているオラクルの骨碑文に由来する。
本研究では,6つの歴史的段階にまたがる権威あるテキストやウェブサイトから,古代の文字を体系的に収集した。
我々は13,714の異なる文字カテゴリを表す229,170の画像からなる広範囲なデータセットを構築した。
- 参考スコア(独自算出の注目度): 72.91231825135665
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The earliest extant Chinese characters originate from oracle bone
inscriptions, which are closely related to other East Asian languages. These
inscriptions hold immense value for anthropology and archaeology. However,
deciphering oracle bone script remains a formidable challenge, with only
approximately 1,600 of the over 4,500 extant characters elucidated to date.
Further scholarly investigation is required to comprehensively understand this
ancient writing system. Artificial Intelligence technology is a promising
avenue for deciphering oracle bone characters, particularly concerning their
evolution. However, one of the challenges is the lack of datasets mapping the
evolution of these characters over time. In this study, we systematically
collected ancient characters from authoritative texts and websites spanning six
historical stages: Oracle Bone Characters - OBC (15th century B.C.), Bronze
Inscriptions - BI (13th to 221 B.C.), Seal Script - SS (11th to 8th centuries
B.C.), Spring and Autumn period Characters - SAC (770 to 476 B.C.), Warring
States period Characters - WSC (475 B.C. to 221 B.C.), and Clerical Script - CS
(221 B.C. to 220 A.D.). Subsequently, we constructed an extensive dataset,
namely EVolution Oracle Bone Characters (EVOBC), consisting of 229,170 images
representing 13,714 distinct character categories. We conducted validation and
simulated deciphering on the constructed dataset, and the results demonstrate
its high efficacy in aiding the study of oracle bone script. This openly
accessible dataset aims to digitalize ancient Chinese scripts across multiple
eras, facilitating the decipherment of oracle bone script by examining the
evolution of glyph forms.
- Abstract(参考訳): 現存する最古の漢字は、他の東アジアの言語と密接に関連する神託の骨碑文に由来する。
これらの碑文は人類学や考古学に多大な価値がある。
しかし、oracle bone scriptの解読は依然として大きな課題であり、現存する4,500以上の文字のうち、約1,600文字しか解明されていない。
この古筆体系を包括的に理解するには、さらなる学術調査が必要である。
人工知能技術は、特にその進化に関して、オラクルの骨の文字を解読するための有望な道である。
しかしながら、課題のひとつは、これらの文字の進化を時間とともにマッピングするデータセットがないことだ。
本研究では,Oracle Bone Characters - OBC (紀元前15世紀), Bronze Inscriptions - BI (紀元前13世紀~紀元前221年), Seal Script - SS (11世紀~紀元前8世紀), Spring and Autumn period Characters - SAC (紀元前770年~紀元前476年), Warring States period Characters - WSC (紀元前475年~紀元前221年), Clerical Script - CS (紀元前221年~紀元前220年)の6つの歴史的段階にまたがる古代文字を体系的に収集した。
その後、13,714の異なる文字カテゴリを表す229,170の画像からなるEVOBC(EVolution Oracle Bone Characters)という広範なデータセットを構築した。
構築したデータセット上で検証とシミュレートを行い,oracle bone scriptの研究を支援するための高い有効性を示した。
このオープンアクセス可能なデータセットは、複数の時代にわたる古代中国のスクリプトのデジタル化を目的としており、glyphフォームの進化を調べることで、oracle bone scriptの解読を容易にする。
関連論文リスト
- An open dataset for oracle bone script recognition and decipherment [68.33464571563293]
Oracle Bone Script (OBS) は、3000年前にさかのぼる上海王朝の人文と地理に関する貴重な洞察を持っている。
時間の経過はそれらの意味の多くを曖昧にしており、これらの古代のテキストを解読する上で重要な課題が提示されている。
このデータセットは1,588個の解読されたスクリプトの77,064個の画像と9,411個の未解読文字の62,989個の画像を含んでいる。
論文 参考訳(メタデータ) (2024-01-27T09:54:16Z) - Diff-Oracle: Diffusion Model for Oracle Character Generation with
Controllable Styles and Contents [32.00645638829282]
骨文書の解読は中国考古学や文献学において重要な役割を担っている。
拡散モデル(DM)に基づくDiff-Oracleを提案する。
テキストプロンプトに依存するほとんどのDMとは対照的に、生成プロセス中にスタイル情報を制御するためのスタイルエンコーダが組み込まれている。
論文 参考訳(メタデータ) (2023-12-21T07:48:38Z) - Oracle Character Recognition using Unsupervised Discriminative
Consistency Network [65.64172835624206]
オラクル文字認識(OrCR)のための新しい教師なしドメイン適応手法を提案する。
擬似ラベルを利用して意味情報を適応と制約強化の整合性に組み込む。
提案手法は,Oracle-241データセットの最先端結果を実現し,最近提案した構造・テクスチャ分離ネットワークを15.1%向上させる。
論文 参考訳(メタデータ) (2023-12-11T02:52:27Z) - Oracle-MNIST: a Realistic Image Dataset for Benchmarking Machine
Learning Algorithms [57.29464116557734]
我々は,古文字30,222文字の28ドルのグレースケール画像からなるOracle-MNISTデータセットを紹介した。
トレーニングセットは完全に27,222枚の画像で構成され、テストセットにはクラス毎に300枚の画像が含まれている。
論文 参考訳(メタデータ) (2022-05-19T09:57:45Z) - Unsupervised Structure-Texture Separation Network for Oracle Character
Recognition [70.29024469395608]
オラクルの骨書は上海王朝の中国最古の書記体系であり、考古学や文献学に重要視されている。
そこで本稿では, 連関, 変換, 適応, 認識のためのエンドツーエンド学習フレームワークである構造テクスチャ分離ネットワーク(STSN)を提案する。
論文 参考訳(メタデータ) (2022-05-13T10:27:02Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z) - Filling the Gaps in Ancient Akkadian Texts: A Masked Language Modelling
Approach [8.00388161728995]
我々は、古代メソポタミアの文書の文字化を前提とした、欠落したテキストを完遂するモデルを提案する。
タブレットの劣化のため、学者はテキストの欠落部分を手作業で埋めるために文脈的な手がかりに頼っていることが多い。
論文 参考訳(メタデータ) (2021-09-09T18:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。