論文の概要: Puzzle Pieces Picker: Deciphering Ancient Chinese Characters with Radical Reconstruction
- arxiv url: http://arxiv.org/abs/2406.03019v1
- Date: Wed, 5 Jun 2024 07:34:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 19:29:27.269129
- Title: Puzzle Pieces Picker: Deciphering Ancient Chinese Characters with Radical Reconstruction
- Title(参考訳): 古代中国語の文字をラディカル・レコンストラクションで解読する「Puzzle Pieces Picker」
- Authors: Pengjie Wang, Kaile Zhang, Xinyu Wang, Shengwei Han, Yongge Liu, Lianwen Jin, Xiang Bai, Yuliang Liu,
- Abstract要約: Oracle Bone Inscriptionsは、世界で最も古い書式である。
多くのOracle Bone Inscriptions (OBI) は未解読のままであり、今日の古生物学におけるグローバルな課題の1つとなっている。
本稿では, 急進的再構成によってこれらの謎的文字を解読する新しい手法, Puzzle Pieces Picker (P$3$) を提案する。
- 参考スコア(独自算出の注目度): 73.26364649572237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Oracle Bone Inscriptions is one of the oldest existing forms of writing in the world. However, due to the great antiquity of the era, a large number of Oracle Bone Inscriptions (OBI) remain undeciphered, making it one of the global challenges in the field of paleography today. This paper introduces a novel approach, namely Puzzle Pieces Picker (P$^3$), to decipher these enigmatic characters through radical reconstruction. We deconstruct OBI into foundational strokes and radicals, then employ a Transformer model to reconstruct them into their modern (conterpart)\textcolor{blue}{counterparts}, offering a groundbreaking solution to ancient script analysis. To further this endeavor, a new Ancient Chinese Character Puzzles (ACCP) dataset was developed, comprising an extensive collection of character images from seven key historical stages, annotated with detailed radical sequences. The experiments have showcased considerable promising insights, underscoring the potential and effectiveness of our approach in deciphering the intricacies of ancient Chinese scripts. Through this novel dataset and methodology, we aim to bridge the gap between traditional philology and modern document analysis techniques, offering new insights into the rich history of Chinese linguistic heritage.
- Abstract(参考訳): Oracle Bone Inscriptionsは、世界で最も古い書式の一つである。
しかし、この時代の大きな古さのため、多くのOracle Bone Inscriptions (OBI) が未解読のままであり、今日の古生物学分野における世界的課題の1つとなっている。
本稿では, 急進的再構成によりこれらの謎の文字を復号化するための新しい手法, Puzzle Pieces Picker (P$^3$) を提案する。
OBIを基本的なストロークとラジカルに分解し、Transformerモデルを使用して、それらをモダンな(conterpart)\textcolor{blue}{counterparts}に再構築し、古代のスクリプト分析の画期的なソリューションを提供します。
この取り組みをさらに進めるために、7つの重要な歴史的段階から大量の文字画像を集め、詳細なラジカル配列を付加した新しい古代中国語の文字パズル(ACCP)データセットが開発された。
この実験は、古代中国のスクリプトの複雑さの解読における我々のアプローチの可能性と有効性について、かなり有望な洞察を示してきた。
この新たなデータセットと方法論を通じて、従来の文献学と近代文書分析のギャップを埋めることを目指しており、中国の言語遺産の豊富な歴史に対する新たな洞察を提供する。
関連論文リスト
- Semi-supervised Chinese Poem-to-Painting Generation via Cycle-consistent Adversarial Networks [2.250406890348191]
本稿では,周期整合型対数ネットワークを用いた半教師付き手法を提案する。
生成した詩や絵画の品質,多様性,一貫性を評価するために,新しい評価指標を導入する。
提案手法は従来の手法よりも優れており,芸術表現の象徴的本質をとらえる可能性を示唆している。
論文 参考訳(メタデータ) (2024-10-25T04:57:44Z) - A Cross-Font Image Retrieval Network for Recognizing Undeciphered Oracle Bone Inscriptions [12.664292922995532]
Oracle Bone Inscription (OBI) は中国で最も初期の成熟した書記システムである。
OBI文字を解読するクロスファント画像検索ネットワーク(CFIRN)を提案する。
論文 参考訳(メタデータ) (2024-09-10T10:04:58Z) - Deciphering Oracle Bone Language with Diffusion Models [70.69739681961558]
Oracle Bone Script (OBS) は約3,000年前の中国の上海王朝に由来する。
本稿では,Oracle Bone Script Decipher(OBSD)の開発を通じて,画像生成技術を採用した新しいアプローチを提案する。
OBSDは、古代の言語のAI支援分析の新しいコースをグラフ化して、解読のための重要な手がかりを生成する。
論文 参考訳(メタデータ) (2024-06-02T09:42:23Z) - An open dataset for oracle bone script recognition and decipherment [66.35957530824872]
古代中国最古の書体の一つ、Oracleの骨書は、3000年前にさかのぼる上海王朝の人文・地理を研究する学者にとって、貴重な研究資料を提示している。
時間の経過はそれらの意味の多くを曖昧にしており、これらの古代のテキストを解読する上で重要な課題が提示されている。
人工知能(AI)の出現により、Oracle Bone Characters(OBC)の解読を支援するAIが実現可能な選択肢となっている。
このデータセットは1,588個の解読文字の77,064個の画像と9,411個の未解読文字の62,989個の画像を含む。
論文 参考訳(メタデータ) (2024-01-27T09:54:16Z) - An open dataset for the evolution of oracle bone characters: EVOBC [72.91231825135665]
現存する最古の漢字は、他の東アジアの言語と密接に関連しているオラクルの骨碑文に由来する。
本研究では,6つの歴史的段階にまたがる権威あるテキストやウェブサイトから,古代の文字を体系的に収集した。
我々は13,714の異なる文字カテゴリを表す229,170の画像からなる広範囲なデータセットを構築した。
論文 参考訳(メタデータ) (2024-01-23T03:30:47Z) - The Uncertainty-based Retrieval Framework for Ancient Chinese CWS and
POS [3.9227136203353865]
本稿では,古漢語と音声タグの枠組みを提案する。
一方,文節意味論を捉えようとする一方で,ベースラインモデルの不確実なサンプルを再予測する。
我々のアーキテクチャの性能は、CRFやJiayanのような既存のツールで事前訓練されたBERTよりも優れています。
論文 参考訳(メタデータ) (2023-10-12T16:55:44Z) - GujiBERT and GujiGPT: Construction of Intelligent Information Processing
Foundation Language Models for Ancient Texts [11.289265479095956]
GujiBERTとGujiGPT言語モデルは、古代のテキストの知的情報処理に特化した基礎モデルである。
これらのモデルは、単純化された漢字と伝統的な漢字の両方を含む広範なデータセットで訓練されている。
これらのモデルは、公開データセットを使用して、さまざまなバリデーションタスクで例外的なパフォーマンスを示しています。
論文 参考訳(メタデータ) (2023-07-11T15:44:01Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - Simple Yet Effective Neural Ranking and Reranking Baselines for
Cross-Lingual Information Retrieval [50.882816288076725]
言語間情報検索は、ある言語で文書を検索し、別の言語でクエリーを検索するタスクである。
本研究では,多段階アーキテクチャを用いた言語横断検索のための異なるアプローチを体系化するための概念的枠組みを提案する。
我々は、ペルシア、ロシア、中国のTREC 2022 NeuCLIRトラックから収集したテストコレクションに対して、Anserini IRツールキットとPyserini IRツールキットに単純かつ効果的に再現可能なベースラインを実装した。
論文 参考訳(メタデータ) (2023-04-03T14:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。