論文の概要: Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts
- arxiv url: http://arxiv.org/abs/2510.24541v1
- Date: Tue, 28 Oct 2025 15:43:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.257616
- Title: Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts
- Title(参考訳): Open Korean Historical Corpus: A Millennia-Scale Diachronic Collections of Public Domain Texts
- Authors: Seyoung Song, Nawon Kim, Songeun Chae, Kiwoong Park, Jiho Jin, Haneul Yoo, Kyunghyun Cho, Alice Oh,
- Abstract要約: 我々は1,300年と6つの言語からなるデータセットであるOpen Korean Historical Corpusを紹介した。
このコーパスには7世紀から2025年までの19の資料から1800万の文書と50億のトークンが含まれている。
この研究は、韓国語の歴史を捉えることで、量的二時間分析の基盤となる資源を提供する。
- 参考スコア(独自算出の注目度): 52.754009498236684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The history of the Korean language is characterized by a discrepancy between its spoken and written forms and a pivotal shift from Chinese characters to the Hangul alphabet. However, this linguistic evolution has remained largely unexplored in NLP due to a lack of accessible historical corpora. To address this gap, we introduce the Open Korean Historical Corpus, a large-scale, openly licensed dataset spanning 1,300 years and 6 languages, as well as under-represented writing systems like Korean-style Sinitic (Idu) and Hanja-Hangul mixed script. This corpus contains 18 million documents and 5 billion tokens from 19 sources, ranging from the 7th century to 2025. We leverage this resource to quantitatively analyze major linguistic shifts: (1) Idu usage peaked in the 1860s before declining sharply; (2) the transition from Hanja to Hangul was a rapid transformation starting around 1890; and (3) North Korea's lexical divergence causes modern tokenizers to produce up to 51 times higher out-of-vocabulary rates. This work provides a foundational resource for quantitative diachronic analysis by capturing the history of the Korean language. Moreover, it can serve as a pre-training corpus for large language models, potentially improving their understanding of Sino-Korean vocabulary in modern Hangul as well as archaic writing systems.
- Abstract(参考訳): 韓国語の歴史は、その話し言葉と書き言葉の相違と、漢字からハングル文字への転換が特徴である。
しかし、この言語進化は、アクセス可能な歴史的コーパスが欠如しているため、NLPでは未発見のままである。
このギャップに対処するため,我々は,1,300年と6言語にわたる大規模かつオープンにライセンスされたデータセットであるOpen Korean Historical Corpusを紹介した。
このコーパスには7世紀から2025年までの19の資料から1800万の文書と50億のトークンが含まれている。
我々はこの資源を利用して主要な言語変化を定量的に分析する:(1)1860年代にピークを迎えて急激な衰退を遂げた、(2)ハンジャからハングルへの移行は1890年頃に始まった急激な転換であり、(3)北朝鮮の語彙的分岐は近代のトークン化業者を最大51倍の語彙外率で産み出す原因となった。
この研究は、韓国語の歴史を捉えることで、量的二時間分析の基盤となる資源を提供する。
さらに、これは大規模言語モデルの事前学習コーパスとして機能し、現代ハングルにおける中・朝鮮語語彙の理解や古文書体系の理解を向上させる可能性がある。
関連論文リスト
- HERITAGE: An End-to-End Web Platform for Processing Korean Historical Documents in Hanja [48.07219104902607]
HERITAGEは、歴史的文書理解における3つの重要なタスクのモデル予測を提供するWebベースのプラットフォームである。
HERITAGEはインタラクティブな用語集も提供しており、現代の朝鮮語ではハンジャ文字の文字レベルの読み方を提供している。
論文 参考訳(メタデータ) (2025-01-21T07:49:51Z) - When Does Classical Chinese Help? Quantifying Cross-Lingual Transfer in Hanja and Kanbun [48.07219104902607]
古典中国語から漢語・漢文への言語間移動可能性の仮定を疑問視する。
実験の結果,漢文で書かれた古代朝鮮語文書の言語モデル性能に対する古典中国語データセットの影響は最小限であった。
論文 参考訳(メタデータ) (2024-11-07T15:59:54Z) - Efficient and Effective Vocabulary Expansion Towards Multilingual Large
Language Models [9.359647125218359]
本報告では,韓国語による大規模言語モデルの適応である texttEEVE-Korean-v1.0 を紹介する。
我々の手法は、わずか20億のトークンで非英語の習熟度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-02-22T17:12:39Z) - HUE: Pretrained Model and Dataset for Understanding Hanja Documents of
Ancient Korea [59.35609710776603]
我々は、時系列属性、トピック分類、名前付きエンティティ認識、要約検索タスクからなるハンハ理解評価データセットをリリースする。
また、本研究では、14世紀から19世紀にかけての2つの主要なコーパスについて、ヨセオン王朝のアンナスと王立事務局の日記のトレーニングを継続したBERTベースのモデルについても紹介する。
論文 参考訳(メタデータ) (2022-10-11T03:04:28Z) - Translating Hanja Historical Documents to Contemporary Korean and
English [52.625998002213585]
李氏朝鮮のアナルスには、朝鮮の近代国家に先立つ500年の王国である李氏朝鮮の日記がある。
アナル文字はもともとは古代朝鮮の文体「ハンジャ」で書かれ、1968年から1993年にかけて朝鮮語に翻訳された。
以後、10年間に1人の王の記録が完成した。
本稿では,ハンハの歴史的文書を韓国語や英語に翻訳するニューラルネットワーク翻訳モデルH2KEを提案する。
論文 参考訳(メタデータ) (2022-05-20T08:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。