論文の概要: HERITAGE: An End-to-End Web Platform for Processing Korean Historical Documents in Hanja
- arxiv url: http://arxiv.org/abs/2501.11951v1
- Date: Tue, 21 Jan 2025 07:49:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:23:08.689236
- Title: HERITAGE: An End-to-End Web Platform for Processing Korean Historical Documents in Hanja
- Title(参考訳): HERITAGE: 韓国の歴史文書を漢で処理するエンド・ツー・エンドのWebプラットフォーム
- Authors: Seyoung Song, Haneul Yoo, Jiho Jin, Kyunghyun Cho, Alice Oh,
- Abstract要約: HERITAGEは、歴史的文書理解における3つの重要なタスクのモデル予測を提供するWebベースのプラットフォームである。
HERITAGEはインタラクティブな用語集も提供しており、現代の朝鮮語ではハンジャ文字の文字レベルの読み方を提供している。
- 参考スコア(独自算出の注目度): 48.07219104902607
- License:
- Abstract: While Korean historical documents are invaluable cultural heritage, understanding those documents requires in-depth Hanja expertise. Hanja is an ancient language used in Korea before the 20th century, whose characters were borrowed from old Chinese but had evolved in Korea for centuries. Modern Koreans and Chinese cannot understand Korean historical documents without substantial additional help, and while previous efforts have produced some Korean and English translations, this requires in-depth expertise, and so most of the documents are not translated into any modern language. To address this gap, we present HERITAGE, the first open-source Hanja NLP toolkit to assist in understanding and translating the unexplored Korean historical documents written in Hanja. HERITAGE is a web-based platform providing model predictions of three critical tasks in historical document understanding via Hanja language models: punctuation restoration, named entity recognition, and machine translation (MT). HERITAGE also provides an interactive glossary, which provides the character-level reading of the Hanja characters in modern Korean, as well as character-level English definition. HERITAGE serves two purposes. First, anyone interested in these documents can get a general understanding from the model predictions and the interactive glossary, especially MT outputs in Korean and English. Second, since the model outputs are not perfect, Hanja experts can revise them to produce better annotations and translations. This would boost the translation efficiency and potentially lead to most of the historical documents being translated into modern languages, lowering the barrier on unexplored Korean historical documents.
- Abstract(参考訳): 朝鮮の史料は貴重な文化遺産であるが、それらの資料を理解するには、より深いハンハの専門知識が必要である。
漢語(はんじゃ)は、20世紀以前に朝鮮で使われていた古代の言語で、その文字は古漢から借用されていたが、何世紀にもわたって朝鮮で発展した。
近代朝鮮人や中国人は朝鮮の歴史文書を相当の助けなしに理解することができず、それまでの努力によって韓国語や英語の翻訳がいくつか作られてきたが、これは詳細な専門知識を必要とするため、ほとんどの文書は現代語に翻訳されていない。
このギャップに対処するため,ハンハで書かれた未発見の朝鮮史料の理解と翻訳を支援する,最初のオープンソース・ハンハNLPツールキットであるHERITAGEを紹介した。
HERITAGEは、ハンハ語モデルによる歴史的文書理解における3つの重要なタスクのモデル予測を提供するWebベースのプラットフォームである。
HERITAGEは対話的な用語集も提供しており、現代の韓国語でハンジャ文字の文字レベルの読み書きや、文字レベルの英語定義を提供している。
HERITAGEは2つの目的がある。
まず、これらの文書に興味のある人は、モデル予測と対話的な用語集、特に韓国語と英語のMT出力から、一般的な理解を得ることができる。
第二に、モデルのアウトプットが完璧ではないため、Hanjaの専門家は、より優れたアノテーションや翻訳を生成するように修正することができる。
これにより翻訳効率が向上し、ほとんどの史料が現代語に翻訳され、未発見の朝鮮の歴史文書の障壁を低くする可能性がある。
関連論文リスト
- When Does Classical Chinese Help? Quantifying Cross-Lingual Transfer in Hanja and Kanbun [48.07219104902607]
古典中国語から漢語・漢文への言語間移動可能性の仮定を疑問視する。
実験の結果,漢文で書かれた古代朝鮮語文書の言語モデル性能に対する古典中国語データセットの影響は最小限であった。
論文 参考訳(メタデータ) (2024-11-07T15:59:54Z) - HyperCLOVA X Technical Report [119.94633129762133]
韓国語と文化に合わせた大型言語モデル(LLM)のファミリーであるHyperCLOVA Xを紹介する。
HyperCLOVA Xは韓国語、英語、コードデータのバランスの取れた混合でトレーニングされ、その後、高品質な人間アノテーション付きデータセットによる命令チューニングが行われた。
このモデルは、韓国語と英語の両方で、包括的な推論、知識、常識、事実性、コーディング、数学、チャット、指示追従、無害など、様々なベンチマークで評価されている。
論文 参考訳(メタデータ) (2024-04-02T13:48:49Z) - HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models [0.0]
HAE-RAE Benchは,韓国の文化的・文脈的深度に欠けるモデルに挑戦するためのデータセットである。
このデータセットは、語彙、歴史、一般的な知識、読み理解の4つの領域にまたがる6つの下流タスクを含んでいる。
論文 参考訳(メタデータ) (2023-09-06T04:38:16Z) - HistRED: A Historical Document-Level Relation Extraction Dataset [32.96963890713529]
HistREDは、漢漢の古文書集「Yeonhaengnok」から造られたものである。
HistREDは、韓国語と漢語でREを実行できるようなバイリンガルアノテーションを提供している。
本稿では,韓国語と漢語の両方の文脈を利用してエンティティ間の関係を予測するバイリンガルREモデルを提案する。
論文 参考訳(メタデータ) (2023-07-10T00:24:27Z) - HUE: Pretrained Model and Dataset for Understanding Hanja Documents of
Ancient Korea [59.35609710776603]
我々は、時系列属性、トピック分類、名前付きエンティティ認識、要約検索タスクからなるハンハ理解評価データセットをリリースする。
また、本研究では、14世紀から19世紀にかけての2つの主要なコーパスについて、ヨセオン王朝のアンナスと王立事務局の日記のトレーニングを継続したBERTベースのモデルについても紹介する。
論文 参考訳(メタデータ) (2022-10-11T03:04:28Z) - Translating Hanja Historical Documents to Contemporary Korean and
English [52.625998002213585]
李氏朝鮮のアナルスには、朝鮮の近代国家に先立つ500年の王国である李氏朝鮮の日記がある。
アナル文字はもともとは古代朝鮮の文体「ハンジャ」で書かれ、1968年から1993年にかけて朝鮮語に翻訳された。
以後、10年間に1人の王の記録が完成した。
本稿では,ハンハの歴史的文書を韓国語や英語に翻訳するニューラルネットワーク翻訳モデルH2KEを提案する。
論文 参考訳(メタデータ) (2022-05-20T08:25:11Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。