論文の概要: An open dataset for the evolution of oracle bone characters: EVOBC
- arxiv url: http://arxiv.org/abs/2401.12467v2
- Date: Tue, 13 Feb 2024 08:21:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 18:29:17.407084
- Title: An open dataset for the evolution of oracle bone characters: EVOBC
- Title(参考訳): oracle bone characterの進化のためのオープンデータセット:evobc
- Authors: Haisu Guan, Jinpeng Wan, Yuliang Liu, Pengjie Wang, Kaile Zhang,
Zhebin Kuang, Xinyu Wang, Xiang Bai, Lianwen Jin
- Abstract要約: 現存する最古の漢字は、他の東アジアの言語と密接に関連しているオラクルの骨碑文に由来する。
本研究では,6つの歴史的段階にまたがる権威あるテキストやウェブサイトから,古代の文字を体系的に収集した。
我々は13,714の異なる文字カテゴリを表す229,170の画像からなる広範囲なデータセットを構築した。
- 参考スコア(独自算出の注目度): 72.91231825135665
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The earliest extant Chinese characters originate from oracle bone
inscriptions, which are closely related to other East Asian languages. These
inscriptions hold immense value for anthropology and archaeology. However,
deciphering oracle bone script remains a formidable challenge, with only
approximately 1,600 of the over 4,500 extant characters elucidated to date.
Further scholarly investigation is required to comprehensively understand this
ancient writing system. Artificial Intelligence technology is a promising
avenue for deciphering oracle bone characters, particularly concerning their
evolution. However, one of the challenges is the lack of datasets mapping the
evolution of these characters over time. In this study, we systematically
collected ancient characters from authoritative texts and websites spanning six
historical stages: Oracle Bone Characters - OBC (15th century B.C.), Bronze
Inscriptions - BI (13th to 221 B.C.), Seal Script - SS (11th to 8th centuries
B.C.), Spring and Autumn period Characters - SAC (770 to 476 B.C.), Warring
States period Characters - WSC (475 B.C. to 221 B.C.), and Clerical Script - CS
(221 B.C. to 220 A.D.). Subsequently, we constructed an extensive dataset,
namely EVolution Oracle Bone Characters (EVOBC), consisting of 229,170 images
representing 13,714 distinct character categories. We conducted validation and
simulated deciphering on the constructed dataset, and the results demonstrate
its high efficacy in aiding the study of oracle bone script. This openly
accessible dataset aims to digitalize ancient Chinese scripts across multiple
eras, facilitating the decipherment of oracle bone script by examining the
evolution of glyph forms.
- Abstract(参考訳): 現存する最古の漢字は、他の東アジアの言語と密接に関連する神託の骨碑文に由来する。
これらの碑文は人類学や考古学に多大な価値がある。
しかし、oracle bone scriptの解読は依然として大きな課題であり、現存する4,500以上の文字のうち、約1,600文字しか解明されていない。
この古筆体系を包括的に理解するには、さらなる学術調査が必要である。
人工知能技術は、特にその進化に関して、オラクルの骨の文字を解読するための有望な道である。
しかしながら、課題のひとつは、これらの文字の進化を時間とともにマッピングするデータセットがないことだ。
本研究では,Oracle Bone Characters - OBC (紀元前15世紀), Bronze Inscriptions - BI (紀元前13世紀~紀元前221年), Seal Script - SS (11世紀~紀元前8世紀), Spring and Autumn period Characters - SAC (紀元前770年~紀元前476年), Warring States period Characters - WSC (紀元前475年~紀元前221年), Clerical Script - CS (紀元前221年~紀元前220年)の6つの歴史的段階にまたがる古代文字を体系的に収集した。
その後、13,714の異なる文字カテゴリを表す229,170の画像からなるEVOBC(EVolution Oracle Bone Characters)という広範なデータセットを構築した。
構築したデータセット上で検証とシミュレートを行い,oracle bone scriptの研究を支援するための高い有効性を示した。
このオープンアクセス可能なデータセットは、複数の時代にわたる古代中国のスクリプトのデジタル化を目的としており、glyphフォームの進化を調べることで、oracle bone scriptの解読を容易にする。
関連論文リスト
- Oracle Bone Inscriptions Multi-modal Dataset [58.20314888996118]
オラクルの骨碑文(Oracle bone inscriptions, OBI)は中国最古の書記体系であり、初期の上海の歴史や古史の貴重な実例を記している。
本稿では,10,077個のオラクル骨の注釈情報を含むOracle Bone Inscriptions Multi-modalデータセットを提案する。
このデータセットは、OBIの文字検出と認識、ラビングDenoising、キャラクタマッチング、キャラクタ生成、読み込みシーケンス予測、ミスキャラクタ補完タスクなど、OBIの分野に関連するさまざまなAI関連研究タスクに使用することができる。
論文 参考訳(メタデータ) (2024-07-04T12:47:32Z) - Puzzle Pieces Picker: Deciphering Ancient Chinese Characters with Radical Reconstruction [73.26364649572237]
Oracle Bone Inscriptionsは、世界で最も古い書式である。
多くのOracle Bone Inscriptions (OBI) は未解読のままであり、今日の古生物学におけるグローバルな課題の1つとなっている。
本稿では, 急進的再構成によってこれらの謎的文字を解読する新しい手法, Puzzle Pieces Picker (P$3$) を提案する。
論文 参考訳(メタデータ) (2024-06-05T07:34:39Z) - Deciphering Oracle Bone Language with Diffusion Models [70.69739681961558]
Oracle Bone Script (OBS) は約3,000年前の中国の上海王朝に由来する。
本稿では,Oracle Bone Script Decipher(OBSD)の開発を通じて,画像生成技術を採用した新しいアプローチを提案する。
OBSDは、古代の言語のAI支援分析の新しいコースをグラフ化して、解読のための重要な手がかりを生成する。
論文 参考訳(メタデータ) (2024-06-02T09:42:23Z) - An open dataset for oracle bone script recognition and decipherment [66.35957530824872]
古代中国最古の書体の一つ、Oracleの骨書は、3000年前にさかのぼる上海王朝の人文・地理を研究する学者にとって、貴重な研究資料を提示している。
時間の経過はそれらの意味の多くを曖昧にしており、これらの古代のテキストを解読する上で重要な課題が提示されている。
人工知能(AI)の出現により、Oracle Bone Characters(OBC)の解読を支援するAIが実現可能な選択肢となっている。
このデータセットは1,588個の解読文字の77,064個の画像と9,411個の未解読文字の62,989個の画像を含む。
論文 参考訳(メタデータ) (2024-01-27T09:54:16Z) - Diff-Oracle: Deciphering Oracle Bone Scripts with Controllable Diffusion Model [48.956844881630886]
オラクルの骨文書の解読は中国考古学や文献学において重要な役割を担っている。
Diff-Oracleは、制御可能なオラクル文字を生成する拡散モデルに基づく新しいアプローチである。
Diff-Oracleは、下流のオラクル文字認識に大きく貢献し、既存のSOTAをはるかに上回っている。
論文 参考訳(メタデータ) (2023-12-21T07:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。