論文の概要: Deciphering Oracle Bone Language with Diffusion Models
- arxiv url: http://arxiv.org/abs/2406.00684v1
- Date: Sun, 2 Jun 2024 09:42:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 03:56:22.767502
- Title: Deciphering Oracle Bone Language with Diffusion Models
- Title(参考訳): 拡散モデルを用いたOracle Bone Languageの解読
- Authors: Haisu Guan, Huanxin Yang, Xinyu Wang, Shengwei Han, Yongge Liu, Lianwen Jin, Xiang Bai, Yuliang Liu,
- Abstract要約: Oracle Bone Script (OBS) は約3,000年前の中国の上海王朝に由来する。
本稿では,Oracle Bone Script Decipher(OBSD)の開発を通じて,画像生成技術を採用した新しいアプローチを提案する。
OBSDは、古代の言語のAI支援分析の新しいコースをグラフ化して、解読のための重要な手がかりを生成する。
- 参考スコア(独自算出の注目度): 70.69739681961558
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Originating from China's Shang Dynasty approximately 3,000 years ago, the Oracle Bone Script (OBS) is a cornerstone in the annals of linguistic history, predating many established writing systems. Despite the discovery of thousands of inscriptions, a vast expanse of OBS remains undeciphered, casting a veil of mystery over this ancient language. The emergence of modern AI technologies presents a novel frontier for OBS decipherment, challenging traditional NLP methods that rely heavily on large textual corpora, a luxury not afforded by historical languages. This paper introduces a novel approach by adopting image generation techniques, specifically through the development of Oracle Bone Script Decipher (OBSD). Utilizing a conditional diffusion-based strategy, OBSD generates vital clues for decipherment, charting a new course for AI-assisted analysis of ancient languages. To validate its efficacy, extensive experiments were conducted on an oracle bone script dataset, with quantitative results demonstrating the effectiveness of OBSD. Code and decipherment results will be made available at https://github.com/guanhaisu/OBSD.
- Abstract(参考訳): 中国の宋代から約3000年前、Oracle Bone Script (OBS) は、多くの確立された書記体系に先立って、言語史の年代記の基盤となっている。
何千もの碑文が発見されたにも拘わらず、OBSの膨大な拡張は未解読のままであり、この古代の言語に謎のベールを投げつけている。
現代のAI技術の出現は、OBS解読の新たなフロンティアを示し、歴史的言語にはない高級品である大きなテキストコーパスに大きく依存する従来のNLP手法に挑戦する。
本稿では,Oracle Bone Script Decipher (OBSD) の開発を通じて,画像生成技術を採用する新たなアプローチを提案する。
条件付き拡散に基づく戦略を利用して、OBSDは解読のための重要な手がかりを生成し、古代の言語のAI支援分析の新しいコースをチャート化している。
その有効性を検証するため、OBSDの有効性を示す定量的な実験をオラクルの骨スクリプトデータセット上で行った。
コードと解読結果はhttps://github.com/guanhaisu/OBSD.comで公開される。
関連論文リスト
- A Cross-Font Image Retrieval Network for Recognizing Undeciphered Oracle Bone Inscriptions [12.664292922995532]
Oracle Bone Inscription (OBI) は中国で最も初期の成熟した書記システムである。
OBI文字を解読するクロスファント画像検索ネットワーク(CFIRN)を提案する。
論文 参考訳(メタデータ) (2024-09-10T10:04:58Z) - Oracle Bone Inscriptions Multi-modal Dataset [58.20314888996118]
オラクルの骨碑文(Oracle bone inscriptions, OBI)は中国最古の書記体系であり、初期の上海の歴史や古史の貴重な実例を記している。
本稿では,10,077個のオラクル骨の注釈情報を含むOracle Bone Inscriptions Multi-modalデータセットを提案する。
このデータセットは、OBIの文字検出と認識、ラビングDenoising、キャラクタマッチング、キャラクタ生成、読み込みシーケンス予測、ミスキャラクタ補完タスクなど、OBIの分野に関連するさまざまなAI関連研究タスクに使用することができる。
論文 参考訳(メタデータ) (2024-07-04T12:47:32Z) - Puzzle Pieces Picker: Deciphering Ancient Chinese Characters with Radical Reconstruction [73.26364649572237]
Oracle Bone Inscriptionsは、世界で最も古い書式である。
多くのOracle Bone Inscriptions (OBI) は未解読のままであり、今日の古生物学におけるグローバルな課題の1つとなっている。
本稿では, 急進的再構成によってこれらの謎的文字を解読する新しい手法, Puzzle Pieces Picker (P$3$) を提案する。
論文 参考訳(メタデータ) (2024-06-05T07:34:39Z) - An open dataset for oracle bone script recognition and decipherment [66.35957530824872]
古代中国最古の書体の一つ、Oracleの骨書は、3000年前にさかのぼる上海王朝の人文・地理を研究する学者にとって、貴重な研究資料を提示している。
時間の経過はそれらの意味の多くを曖昧にしており、これらの古代のテキストを解読する上で重要な課題が提示されている。
人工知能(AI)の出現により、Oracle Bone Characters(OBC)の解読を支援するAIが実現可能な選択肢となっている。
このデータセットは1,588個の解読文字の77,064個の画像と9,411個の未解読文字の62,989個の画像を含む。
論文 参考訳(メタデータ) (2024-01-27T09:54:16Z) - An open dataset for the evolution of oracle bone characters: EVOBC [72.91231825135665]
現存する最古の漢字は、他の東アジアの言語と密接に関連しているオラクルの骨碑文に由来する。
本研究では,6つの歴史的段階にまたがる権威あるテキストやウェブサイトから,古代の文字を体系的に収集した。
我々は13,714の異なる文字カテゴリを表す229,170の画像からなる広範囲なデータセットを構築した。
論文 参考訳(メタデータ) (2024-01-23T03:30:47Z) - Reverse-Engineering Decoding Strategies Given Blackbox Access to a
Language Generation System [73.52878118434147]
テキスト生成に使用する復号法をリバースエンジニアリングする手法を提案する。
どのようなデコード戦略が使われたかを検出する能力は、生成されたテキストを検出することに影響を及ぼす。
論文 参考訳(メタデータ) (2023-09-09T18:19:47Z) - CBAG: Conditional Biomedical Abstract Generation [1.2633386045916442]
浅層エンコーダ"条件"スタックと,マルチヘッドアテンションブロックの深層"言語モデル"スタックを備えたトランスフォーマーベースの条件言語モデルを提案する。
提案したタイトル,意図した出版年,キーワードのセットのみをバイオメディカルな要約として生成する。
論文 参考訳(メタデータ) (2020-02-13T17:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。