論文の概要: InteChar: A Unified Oracle Bone Character List for Ancient Chinese Language Modeling
- arxiv url: http://arxiv.org/abs/2508.15791v1
- Date: Tue, 12 Aug 2025 11:53:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-31 21:54:20.527734
- Title: InteChar: A Unified Oracle Bone Character List for Ancient Chinese Language Modeling
- Title(参考訳): InteChar: 古代中国のモデリングのための統一されたOracleの骨文字リスト
- Authors: Xiaolei Diao, Zhihan Zhou, Lida Shi, Ting Wang, Ruihua Qi, Hao Xu, Daqian Shi,
- Abstract要約: InteCharは、未コーディングのオラクルの骨文字を伝統的な中国語や現代中国語と統合した文字リストである。
Oracle Corpus Set(OracleCS)は、専門家による注釈付きサンプルとLLMによるデータ拡張を組み合わせた、中国の古代のコーパスである。
実験によると、OracleCS上でInteCharでトレーニングされたモデルは、さまざまな歴史的言語理解タスクで大幅に改善されている。
- 参考スコア(独自算出の注目度): 19.419729615830466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Constructing historical language models (LMs) plays a crucial role in aiding archaeological provenance studies and understanding ancient cultures. However, existing resources present major challenges for training effective LMs on historical texts. First, the scarcity of historical language samples renders unsupervised learning approaches based on large text corpora highly inefficient, hindering effective pre-training. Moreover, due to the considerable temporal gap and complex evolution of ancient scripts, the absence of comprehensive character encoding schemes limits the digitization and computational processing of ancient texts, particularly in early Chinese writing. To address these challenges, we introduce InteChar, a unified and extensible character list that integrates unencoded oracle bone characters with traditional and modern Chinese. InteChar enables consistent digitization and representation of historical texts, providing a foundation for robust modeling of ancient scripts. To evaluate the effectiveness of InteChar, we construct the Oracle Corpus Set (OracleCS), an ancient Chinese corpus that combines expert-annotated samples with LLM-assisted data augmentation, centered on Chinese oracle bone inscriptions. Extensive experiments show that models trained with InteChar on OracleCS achieve substantial improvements across various historical language understanding tasks, confirming the effectiveness of our approach and establishing a solid foundation for future research in ancient Chinese NLP.
- Abstract(参考訳): 歴史的言語モデル(LM)の構築は考古学的前駆的な研究を支援し、古代文化を理解する上で重要な役割を担っている。
しかし,既存の資料は,過去の文献から有効なLMを学習する上で大きな課題となっている。
第一に、歴史言語サンプルの不足は、大きなテキストコーパスに基づく教師なし学習アプローチを非常に非効率にし、効果的な事前学習を妨げる。
さらに、古代の文字の時間的ギャップと複雑な進化のために、包括的な文字符号化方式が欠如していることは、古代のテキスト、特に初期の漢文のデジタル化と計算処理を制限している。
これらの課題に対処するために、未符号化のオラクル骨文字を伝統的な中国語と現代中国語と統合した、統一的で拡張可能な文字リストであるInteCharを紹介した。
InteCharは、歴史的テキストの一貫性のあるデジタル化と表現を可能にし、古代のスクリプトの堅牢なモデリングの基礎を提供する。
InteCharの有効性を評価するため,中国古来のオラクル・コーパス・セット (OracleCS) を構築した。
広範囲にわたる実験により,OracleCS上でInteCharでトレーニングしたモデルは,様々な歴史的言語理解タスクにおいて大幅な改善を実現し,我々のアプローチの有効性を確認し,古代中国のNLPにおける将来の研究の基盤を確立した。
関連論文リスト
- OracleFusion: Assisting the Decipherment of Oracle Bone Script with Structurally Constrained Semantic Typography [58.790901822971094]
Oracle Bone Script (OBS) は古代文明の文化記録と知的表現をカプセル化している。
約4,500のOBS文字が発見されたが、解読されたのは1,600文字程度である。
本稿では,OracleFusionという新しい2段階セマンティックフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-26T08:56:07Z) - Unveiling Factors for Enhanced POS Tagging: A Study of Low-Resource Medieval Romance Languages [0.18846515534317265]
Part-of-speech (POS) タグは、自然言語処理パイプラインの基本コンポーネントである。
本研究は,中世オクシタン,中世スペイン語,中世フランス語の多種多様なコーパスにおけるPOSタグ付け性能の中央決定要因を体系的に検討した。
論文 参考訳(メタデータ) (2025-06-21T13:33:07Z) - ParsiPy: NLP Toolkit for Historical Persian Texts in Python [1.637832760977605]
この研究は、音声の書き起こしを処理し、古代のテキストを分析するためのNLPツールキットであるParsiPyを導入している。
ParsiPyは、トークン化、補題化、音声タグ付け、音素から音素への変換、単語の埋め込みのためのモジュールを提供する。
論文 参考訳(メタデータ) (2025-03-22T16:21:29Z) - Fùxì: A Benchmark for Evaluating Language Models on Ancient Chinese Text Understanding and Generation [20.87296508045343]
我々は21種類のタスクに対する理解と生成の両方の能力を評価する総合的なベンチマークであるFuxiを紹介する。
我々は,理解タスクと生成タスクの間に大きなパフォーマンスギャップを生じさせ,モデルが有望な結果を得るためには理解が難しいが,生成タスクではかなり苦労する。
本研究は,古代中国のテキスト処理における現状の限界に注目し,今後のモデル開発への洞察を提供するものである。
論文 参考訳(メタデータ) (2025-03-20T04:26:40Z) - Puzzle Pieces Picker: Deciphering Ancient Chinese Characters with Radical Reconstruction [73.26364649572237]
Oracle Bone Inscriptionsは、世界で最も古い書式である。
多くのOracle Bone Inscriptions (OBI) は未解読のままであり、今日の古生物学におけるグローバルな課題の1つとなっている。
本稿では, 急進的再構成によってこれらの謎的文字を解読する新しい手法, Puzzle Pieces Picker (P$3$) を提案する。
論文 参考訳(メタデータ) (2024-06-05T07:34:39Z) - Deciphering Oracle Bone Language with Diffusion Models [70.69739681961558]
Oracle Bone Script (OBS) は約3,000年前の中国の上海王朝に由来する。
本稿では,Oracle Bone Script Decipher(OBSD)の開発を通じて,画像生成技術を採用した新しいアプローチを提案する。
OBSDは、古代の言語のAI支援分析の新しいコースをグラフ化して、解読のための重要な手がかりを生成する。
論文 参考訳(メタデータ) (2024-06-02T09:42:23Z) - An open dataset for the evolution of oracle bone characters: EVOBC [72.91231825135665]
現存する最古の漢字は、他の東アジアの言語と密接に関連しているオラクルの骨碑文に由来する。
本研究では,6つの歴史的段階にまたがる権威あるテキストやウェブサイトから,古代の文字を体系的に収集した。
我々は13,714の異なる文字カテゴリを表す229,170の画像からなる広範囲なデータセットを構築した。
論文 参考訳(メタデータ) (2024-01-23T03:30:47Z) - GujiBERT and GujiGPT: Construction of Intelligent Information Processing
Foundation Language Models for Ancient Texts [11.289265479095956]
GujiBERTとGujiGPT言語モデルは、古代のテキストの知的情報処理に特化した基礎モデルである。
これらのモデルは、単純化された漢字と伝統的な漢字の両方を含む広範なデータセットで訓練されている。
これらのモデルは、公開データセットを使用して、さまざまなバリデーションタスクで例外的なパフォーマンスを示しています。
論文 参考訳(メタデータ) (2023-07-11T15:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。