論文の概要: An open dataset for oracle bone script recognition and decipherment
- arxiv url: http://arxiv.org/abs/2401.15365v2
- Date: Tue, 13 Feb 2024 07:09:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 18:31:15.132176
- Title: An open dataset for oracle bone script recognition and decipherment
- Title(参考訳): oracleの骨スクリプト認識と解読のためのオープンデータセット
- Authors: Pengjie Wang, Kaile Zhang, Xinyu Wang, Shengwei Han, Yongge Liu,
Jinpeng Wan, Haisu Guan, Zhebin Kuang, Lianwen Jin, Xiang Bai, Yuliang Liu
- Abstract要約: Oracle Bone Script (OBS) は、3000年前にさかのぼる上海王朝の人文と地理に関する貴重な洞察を持っている。
時間の経過はそれらの意味の多くを曖昧にしており、これらの古代のテキストを解読する上で重要な課題が提示されている。
このデータセットは1,588個の解読されたスクリプトの77,064個の画像と9,411個の未解読文字の62,989個の画像を含んでいる。
- 参考スコア(独自算出の注目度): 68.33464571563293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Oracle Bone Script (OBS), one of the earliest known forms of ancient Chinese
writing, holds invaluable insights into the humanities and geography of the
Shang Dynasty, dating back 3,000 years. The immense historical and cultural
significance of these writings cannot be overstated. However, the passage of
time has obscured much of their meaning, presenting a significant challenge in
deciphering these ancient texts. With the advent of Artificial Intelligence
(AI), employing AI to assist in interpreting OBS has become a feasible option.
Yet, progress in this area has been hindered by a lack of high-quality
datasets. To address this issue, this paper details the creation of the
HUST-OBS dataset. This dataset encompasses 77,064 images of 1,588 individual
deciphered scripts and 62,989 images of 9,411 undeciphered characters, with a
total of 140,053 images, compiled from diverse sources. Additionally, all
images and labels have been reviewed and corrected by experts in oracle bone
studies. The hope is that this dataset could inspire and assist future research
in deciphering those unknown OBS.
- Abstract(参考訳): Oracle Bone Script (OBS) は、古代中国最古の書物として知られており、3000年前にさかのぼる上海王朝の人文と地理に関する貴重な知見を持っている。
これらの著作の歴史的・文化的意義は過大評価されない。
しかし、時間の経過はそれらの意味の多くを曖昧にしており、これらの古代のテキストを解読する上で重要な課題となっている。
人工知能(AI)の出現により、OBSの解釈を支援するAIが実現可能な選択肢となった。
しかし、この分野の進歩は高品質なデータセットの欠如によって妨げられている。
本稿では,HUST-OBSデータセットの作成について詳述する。
このデータセットは1,588個の解読されたスクリプトの77,064個の画像と9,411個の未解読文字の62,989個の画像を含む。
さらに、すべての画像とラベルは、oracle bone studiesの専門家によってレビューされ、修正されています。
このデータセットは、未知のOBSを解読する将来の研究を刺激し、支援することを期待している。
関連論文リスト
- IndicSTR12: A Dataset for Indic Scene Text Recognition [33.194567434881314]
本稿では、インドにおける最大かつ最も包括的な実データセットであるIndicSTR12を提案し、12の主要言語でのSTRパフォーマンスをベンチマークする。
提案されたデータセットのサイズと複雑さは、既存のラテン系同時代のデータセットに匹敵するものである。
データセットには、様々な自然のシーンから集められた27000以上のワードイメージが含まれており、各言語に1000以上のワードイメージがある。
論文 参考訳(メタデータ) (2024-03-12T18:14:48Z) - An open dataset for the evolution of oracle bone characters: EVOBC [72.91231825135665]
現存する最古の漢字は、他の東アジアの言語と密接に関連しているオラクルの骨碑文に由来する。
本研究では,6つの歴史的段階にまたがる権威あるテキストやウェブサイトから,古代の文字を体系的に収集した。
我々は13,714の異なる文字カテゴリを表す229,170の画像からなる広範囲なデータセットを構築した。
論文 参考訳(メタデータ) (2024-01-23T03:30:47Z) - A Benchmark and Dataset for Post-OCR text correction in Sanskrit [23.45279030301887]
サンスクリット語は古典言語であり、約3000万の写本がデジタル化に適合している。
我々は,30冊の書籍から約218,000文,150万語を含むOCR後テキスト修正データセットを作成した。
論文 参考訳(メタデータ) (2022-11-15T08:32:18Z) - Oracle-MNIST: a Realistic Image Dataset for Benchmarking Machine
Learning Algorithms [57.29464116557734]
我々は,古文字30,222文字の28ドルのグレースケール画像からなるOracle-MNISTデータセットを紹介した。
トレーニングセットは完全に27,222枚の画像で構成され、テストセットにはクラス毎に300枚の画像が含まれている。
論文 参考訳(メタデータ) (2022-05-19T09:57:45Z) - Unsupervised Structure-Texture Separation Network for Oracle Character
Recognition [70.29024469395608]
オラクルの骨書は上海王朝の中国最古の書記体系であり、考古学や文献学に重要視されている。
そこで本稿では, 連関, 変換, 適応, 認識のためのエンドツーエンド学習フレームワークである構造テクスチャ分離ネットワーク(STSN)を提案する。
論文 参考訳(メタデータ) (2022-05-13T10:27:02Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z) - MAD: A Scalable Dataset for Language Grounding in Videos from Movie
Audio Descriptions [109.84031235538002]
我々は、既存のビデオデータセットをテキストアノテーションで拡張するパラダイムから外れた、新しいベンチマークであるMAD(Movie Audio Descriptions)を提示する。
MADには1200時間以上のビデオに接地された384,000以上の自然言語文が含まれており、現在診断されているビデオ言語接地データセットのバイアスが大幅に減少している。
論文 参考訳(メタデータ) (2021-12-01T11:47:09Z) - Filling the Gaps in Ancient Akkadian Texts: A Masked Language Modelling
Approach [8.00388161728995]
我々は、古代メソポタミアの文書の文字化を前提とした、欠落したテキストを完遂するモデルを提案する。
タブレットの劣化のため、学者はテキストの欠落部分を手作業で埋めるために文脈的な手がかりに頼っていることが多い。
論文 参考訳(メタデータ) (2021-09-09T18:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。