論文の概要: Translating Hanja Historical Documents to Contemporary Korean and
English
- arxiv url: http://arxiv.org/abs/2205.10019v5
- Date: Fri, 29 Dec 2023 12:18:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 03:18:35.898420
- Title: Translating Hanja Historical Documents to Contemporary Korean and
English
- Title(参考訳): 漢文書を現代朝鮮語・英語に翻訳する
- Authors: Juhee Son, Jiho Jin, Haneul Yoo, JinYeong Bak, Kyunghyun Cho, Alice Oh
- Abstract要約: 李氏朝鮮のアナルスには、朝鮮の近代国家に先立つ500年の王国である李氏朝鮮の日記がある。
アナル文字はもともとは古代朝鮮の文体「ハンジャ」で書かれ、1968年から1993年にかけて朝鮮語に翻訳された。
以後、10年間に1人の王の記録が完成した。
本稿では,ハンハの歴史的文書を韓国語や英語に翻訳するニューラルネットワーク翻訳モデルH2KEを提案する。
- 参考スコア(独自算出の注目度): 52.625998002213585
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The Annals of Joseon Dynasty (AJD) contain the daily records of the Kings of
Joseon, the 500-year kingdom preceding the modern nation of Korea. The Annals
were originally written in an archaic Korean writing system, `Hanja', and were
translated into Korean from 1968 to 1993. The resulting translation was however
too literal and contained many archaic Korean words; thus, a new expert
translation effort began in 2012. Since then, the records of only one king have
been completed in a decade. In parallel, expert translators are working on
English translation, also at a slow pace and produced only one king's records
in English so far. Thus, we propose H2KE, a neural machine translation model,
that translates historical documents in Hanja to more easily understandable
Korean and to English. Built on top of multilingual neural machine translation,
H2KE learns to translate a historical document written in Hanja, from both a
full dataset of outdated Korean translation and a small dataset of more
recently translated contemporary Korean and English. We compare our method
against two baselines: a recent model that simultaneously learns to restore and
translate Hanja historical document and a Transformer based model trained only
on newly translated corpora. The experiments reveal that our method
significantly outperforms the baselines in terms of BLEU scores for both
contemporary Korean and English translations. We further conduct extensive
human evaluation which shows that our translation is preferred over the
original expert translations by both experts and non-expert Korean speakers.
- Abstract(参考訳): 朝鮮王朝の年代記(ajd)には朝鮮の近代国家に先立つ500年の王国である朝鮮の王の日々の記録が含まれている。
アナル文字は、1968年から1993年まで朝鮮語に翻訳された古来の朝鮮語書記法「般若」で書かれていた。
しかし、この翻訳は書き直しに過ぎず、多くの古語的な韓国語も含んでいたため、2012年に新しい専門的な翻訳作業が始まった。
それ以来、わずか1人の王の記録は10年で完成している。
並行して、専門家翻訳家は英語の翻訳にも取り組んでおり、そのペースは遅く、これまでのところ英語の王の記録は1つだけだった。
そこで本稿では,ハンジャの歴史文書をより理解しやすい韓国語と英語に翻訳するニューラルマシン翻訳モデルh2keを提案する。
H2KEは多言語ニューラルマシン翻訳の上に構築され、時代遅れの朝鮮語翻訳の全データセットと、より最近になって翻訳された現代韓国語と英語の小さなデータセットから漢漢で書かれた歴史的文書の翻訳を学ぶ。
提案手法を,漢書古文書の復元と翻訳を同時に学習する最近のモデルと,新たに翻訳されたコーパスのみに基づいて学習したトランスフォーマーベースモデルとを比較した。
実験の結果,現代韓国語と英語の両翻訳のBLEUスコアにおいて,本手法が基調を著しく上回ることがわかった。
我々はさらに、専門家と非専門家の韓国語話者による原語翻訳よりも翻訳が好ましいことを示す広範な人的評価を行っている。
関連論文リスト
- When Does Classical Chinese Help? Quantifying Cross-Lingual Transfer in Hanja and Kanbun [48.07219104902607]
古典中国語から漢語・漢文への言語間移動可能性の仮定を疑問視する。
実験の結果,漢文で書かれた古代朝鮮語文書の言語モデル性能に対する古典中国語データセットの影響は最小限であった。
論文 参考訳(メタデータ) (2024-11-07T15:59:54Z) - Punctuation restoration Model and Spacing Model for Korean Ancient
Document [0.5524804393257919]
朝鮮の古文書には空白や句読がなく、漢文で書かれている。
中国には句読点と間隔を予測するモデルがあるが、韓国のテキストに直接適用することは、データの違いによって問題となる。
韓国の歴史文献の句読点と間隔を予測し,その性能を評価する最初のモデルを開発した。
論文 参考訳(メタデータ) (2023-12-19T06:15:52Z) - HistRED: A Historical Document-Level Relation Extraction Dataset [32.96963890713529]
HistREDは、漢漢の古文書集「Yeonhaengnok」から造られたものである。
HistREDは、韓国語と漢語でREを実行できるようなバイリンガルアノテーションを提供している。
本稿では,韓国語と漢語の両方の文脈を利用してエンティティ間の関係を予測するバイリンガルREモデルを提案する。
論文 参考訳(メタデータ) (2023-07-10T00:24:27Z) - Kanbun-LM: Reading and Translating Classical Chinese in Japanese Methods by Language Models [17.749113496737106]
世界で最初の古典漢文データセットを構築した。
漢字の並べ替えや機械翻訳は漢文理解において重要な役割を担っている。
コードとデータセットはGitHubでリリースしています。
論文 参考訳(メタデータ) (2023-05-22T06:30:02Z) - A Bilingual Parallel Corpus with Discourse Annotations [82.07304301996562]
本稿では,Jiang et al. (2022)で最初に導入された大きな並列コーパスであるBWBと,注釈付きテストセットについて述べる。
BWBコーパスは、専門家によって英語に翻訳された中国の小説で構成されており、注釈付きテストセットは、様々な談話現象をモデル化する機械翻訳システムの能力を調査するために設計されている。
論文 参考訳(メタデータ) (2022-10-26T12:33:53Z) - HUE: Pretrained Model and Dataset for Understanding Hanja Documents of
Ancient Korea [59.35609710776603]
我々は、時系列属性、トピック分類、名前付きエンティティ認識、要約検索タスクからなるハンハ理解評価データセットをリリースする。
また、本研究では、14世紀から19世紀にかけての2つの主要なコーパスについて、ヨセオン王朝のアンナスと王立事務局の日記のトレーニングを継続したBERTベースのモデルについても紹介する。
論文 参考訳(メタデータ) (2022-10-11T03:04:28Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - A Multilingual Neural Machine Translation Model for Biomedical Data [84.17747489525794]
生物医学領域におけるテキストの翻訳に使用できる多言語ニューラルマシン翻訳モデルをリリースする。
このモデルは5つの言語(フランス語、ドイツ語、イタリア語、韓国語、スペイン語)から英語に翻訳できる。
ドメインタグを使用して、大量のジェネリックおよびバイオメディカルデータをトレーニングする。
論文 参考訳(メタデータ) (2020-08-06T21:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。