論文の概要: An open dataset for oracle bone script recognition and decipherment
- arxiv url: http://arxiv.org/abs/2401.15365v1
- Date: Sat, 27 Jan 2024 09:54:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 18:38:43.050365
- Title: An open dataset for oracle bone script recognition and decipherment
- Title(参考訳): oracleの骨スクリプト認識と解読のためのオープンデータセット
- Authors: Pengjie Wang, Kaile Zhang, Yuliang Liu, Jinpeng Wan, Haisu Guan,
Zhebin Kuang, Xinyu Wang, Lianwen Jin, Xiang Bai
- Abstract要約: Oracle Bone Script (OBS) は、3000年前にさかのぼる上海王朝の人文と地理に関する貴重な洞察を持っている。
時間の経過はそれらの意味の多くを曖昧にしており、これらの古代のテキストを解読する上で重要な課題が提示されている。
このデータセットは1,588個の解読されたスクリプトの77,064個の画像と9,411個の未解読文字の62,989個の画像を含んでいる。
- 参考スコア(独自算出の注目度): 72.91231825135665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Oracle Bone Script (OBS), one of the earliest known forms of ancient Chinese
writing, holds invaluable insights into the humanities and geography of the
Shang Dynasty, dating back 3,000 years. The immense historical and cultural
significance of these writings cannot be overstated. However, the passage of
time has obscured much of their meaning, presenting a significant challenge in
deciphering these ancient texts. With the advent of Artificial Intelligence
(AI), employing AI to assist in interpreting OBS has become a feasible option.
Yet, progress in this area has been hindered by a lack of high-quality
datasets. To address this issue, this paper details the creation of the
HUST-OBS dataset. This dataset encompasses 77,064 images of 1,588 individual
deciphered scripts and 62,989 images of 9,411 undeciphered characters, with a
total of 140,053 images, compiled from diverse sources. Additionally, all
images and labels have been reviewed and corrected by experts in oracle bone
studies. The hope is that this dataset could inspire and assist future research
in deciphering those unknown OBS.
- Abstract(参考訳): Oracle Bone Script (OBS) は、古代中国最古の書物として知られており、3000年前にさかのぼる上海王朝の人文と地理に関する貴重な知見を持っている。
これらの著作の歴史的・文化的意義は過大評価されない。
しかし、時間の経過はそれらの意味の多くを曖昧にしており、これらの古代のテキストを解読する上で重要な課題となっている。
人工知能(AI)の出現により、OBSの解釈を支援するAIが実現可能な選択肢となった。
しかし、この分野の進歩は高品質なデータセットの欠如によって妨げられている。
本稿では,HUST-OBSデータセットの作成について詳述する。
このデータセットは1,588個の解読されたスクリプトの77,064個の画像と9,411個の未解読文字の62,989個の画像を含む。
さらに、すべての画像とラベルは、oracle bone studiesの専門家によってレビューされ、修正されています。
このデータセットは、未知のOBSを解読する将来の研究を刺激し、支援することを期待している。
関連論文リスト
- Oracle Bone Inscriptions Multi-modal Dataset [58.20314888996118]
オラクルの骨碑文(Oracle bone inscriptions, OBI)は中国最古の書記体系であり、初期の上海の歴史や古史の貴重な実例を記している。
本稿では,10,077個のオラクル骨の注釈情報を含むOracle Bone Inscriptions Multi-modalデータセットを提案する。
このデータセットは、OBIの文字検出と認識、ラビングDenoising、キャラクタマッチング、キャラクタ生成、読み込みシーケンス予測、ミスキャラクタ補完タスクなど、OBIの分野に関連するさまざまなAI関連研究タスクに使用することができる。
論文 参考訳(メタデータ) (2024-07-04T12:47:32Z) - Puzzle Pieces Picker: Deciphering Ancient Chinese Characters with Radical Reconstruction [73.26364649572237]
Oracle Bone Inscriptionsは、世界で最も古い書式である。
多くのOracle Bone Inscriptions (OBI) は未解読のままであり、今日の古生物学におけるグローバルな課題の1つとなっている。
本稿では, 急進的再構成によってこれらの謎的文字を解読する新しい手法, Puzzle Pieces Picker (P$3$) を提案する。
論文 参考訳(メタデータ) (2024-06-05T07:34:39Z) - Deciphering Oracle Bone Language with Diffusion Models [70.69739681961558]
Oracle Bone Script (OBS) は約3,000年前の中国の上海王朝に由来する。
本稿では,Oracle Bone Script Decipher(OBSD)の開発を通じて,画像生成技術を採用した新しいアプローチを提案する。
OBSDは、古代の言語のAI支援分析の新しいコースをグラフ化して、解読のための重要な手がかりを生成する。
論文 参考訳(メタデータ) (2024-06-02T09:42:23Z) - Segmentation of Maya hieroglyphs through fine-tuned foundation models [0.0]
マヤのヒエログリフ書の研究は、この古代文明の視覚的物語に埋め込まれた文化的・社会的知識の豊かな歴史を解き放つ。
マヤの人工物専用のオープンソースデジタルライブラリから,マヤのヒエログリフを抽出するための基礎モデルを活用している。
一般に利用可能な基本セグメンテーションモデルの当初の約束にもかかわらず、マヤのヒエログリフを正確にセグメンテーションする効果は当初は限られていた。
論文 参考訳(メタデータ) (2024-05-26T04:41:17Z) - An open dataset for the evolution of oracle bone characters: EVOBC [72.91231825135665]
現存する最古の漢字は、他の東アジアの言語と密接に関連しているオラクルの骨碑文に由来する。
本研究では,6つの歴史的段階にまたがる権威あるテキストやウェブサイトから,古代の文字を体系的に収集した。
我々は13,714の異なる文字カテゴリを表す229,170の画像からなる広範囲なデータセットを構築した。
論文 参考訳(メタデータ) (2024-01-23T03:30:47Z) - Diff-Oracle: Deciphering Oracle Bone Scripts with Controllable Diffusion Model [48.956844881630886]
オラクルの骨文書の解読は中国考古学や文献学において重要な役割を担っている。
Diff-Oracleは、制御可能なオラクル文字を生成する拡散モデルに基づく新しいアプローチである。
Diff-Oracleは、下流のオラクル文字認識に大きく貢献し、既存のSOTAをはるかに上回っている。
論文 参考訳(メタデータ) (2023-12-21T07:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。