論文の概要: Translating Hanja historical documents to understandable Korean and
English
- arxiv url: http://arxiv.org/abs/2205.10019v1
- Date: Fri, 20 May 2022 08:25:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 03:25:45.014293
- Title: Translating Hanja historical documents to understandable Korean and
English
- Title(参考訳): 漢漢文書を朝鮮語・英語に翻訳する
- Authors: Juhee Son, Jiho Jin, Haneul Yoo, JinYeong Bak, Kyunghyun Cho, Alice Oh
- Abstract要約: 李氏朝鮮のアンナ人は、朝鮮の近代国家に先立つ500年の王国である李氏王国の日々の記録を記している。
アナル文字は、1968年から1993年まで朝鮮語に翻訳された古来の朝鮮語表記体系「ハンジャ」で書かれていた。
本稿では,ハンハの歴史的文書を韓国語と英語に翻訳するニューラルネットワーク翻訳モデルH2KEを提案する。
- 参考スコア(独自算出の注目度): 59.35609710776603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Annals of Joseon Dynasty (AJD) contain the daily records of the Kings of
Joseon, the 500-year kingdom preceding the modern nation of Korea. The Annals
were originally written in an archaic Korean writing system, `Hanja', and
translated into Korean from 1968 to 1993. However, this translation was literal
and contained many archaic Korean words; thus, a new expert translation effort
began in 2012, completing the records of only one king in a decade. Also,
expert translators are working on an English translation, of which only one
king's records are available because of the high cost and slow progress. Thus,
we propose H2KE, the neural machine translation model that translates Hanja
historical documents to understandable Korean and English. Based on the
multilingual neural machine translation approach, it translates the historical
document written in Hanja, using both the full dataset of outdated Korean
translation and a small dataset of recently translated Korean and English. We
compare our method with two baselines: one is a recent model that
simultaneously learns to restore and translate Hanja historical document and
the other is the transformer that trained on newly translated corpora only. The
results show that our method significantly outperforms the baselines in terms
of BLEU score in both modern Korean and English translations. We also conduct a
human evaluation that shows that our translation is preferred over the original
expert translation.
- Abstract(参考訳): 朝鮮王朝の年代記(ajd)には朝鮮の近代国家に先立つ500年の王国である朝鮮の王の日々の記録が含まれている。
アナル文字は、1968年から1993年まで朝鮮語に翻訳された古来の朝鮮語書記法「般若」で書かれていた。
しかし、この翻訳は文字通り、古来の朝鮮語の単語を多く含んでいたため、2012年に新たな専門的な翻訳作業が始まり、わずか10年で1人の王の記録が完成した。
また、専門家翻訳家は英語翻訳に取り組んでおり、高いコストと進捗の遅いため、キングの記録は1つしか入手できない。
そこで本研究では,漢書を韓国語と英語に翻訳するニューラルネットワーク翻訳モデルH2KEを提案する。
多言語ニューラルマシン翻訳アプローチに基づき、古い韓国語翻訳の完全なデータセットと、最近翻訳された韓国語と英語の小さなデータセットの両方を使用して、ハンジャで書かれた歴史的文書を翻訳する。
本手法を2つのベースラインと比較する。1つは漢書の復元と翻訳を同時に行うモデルであり、もう1つは新たに翻訳されたコーパスのみをトレーニングしたトランスフォーマーである。
その結果,現代韓国語・英語訳のBLEUスコアでは,本手法が基調を著しく上回ることがわかった。
また,人間による評価を行い,翻訳が本来の専門家翻訳よりも望ましいことを示す。
関連論文リスト
- When Does Classical Chinese Help? Quantifying Cross-Lingual Transfer in Hanja and Kanbun [48.07219104902607]
古典中国語から漢語・漢文への言語間移動可能性の仮定を疑問視する。
実験の結果,漢文で書かれた古代朝鮮語文書の言語モデル性能に対する古典中国語データセットの影響は最小限であった。
論文 参考訳(メタデータ) (2024-11-07T15:59:54Z) - Punctuation restoration Model and Spacing Model for Korean Ancient
Document [0.5524804393257919]
朝鮮の古文書には空白や句読がなく、漢文で書かれている。
中国には句読点と間隔を予測するモデルがあるが、韓国のテキストに直接適用することは、データの違いによって問題となる。
韓国の歴史文献の句読点と間隔を予測し,その性能を評価する最初のモデルを開発した。
論文 参考訳(メタデータ) (2023-12-19T06:15:52Z) - HistRED: A Historical Document-Level Relation Extraction Dataset [32.96963890713529]
HistREDは、漢漢の古文書集「Yeonhaengnok」から造られたものである。
HistREDは、韓国語と漢語でREを実行できるようなバイリンガルアノテーションを提供している。
本稿では,韓国語と漢語の両方の文脈を利用してエンティティ間の関係を予測するバイリンガルREモデルを提案する。
論文 参考訳(メタデータ) (2023-07-10T00:24:27Z) - Kanbun-LM: Reading and Translating Classical Chinese in Japanese Methods by Language Models [17.749113496737106]
世界で最初の古典漢文データセットを構築した。
漢字の並べ替えや機械翻訳は漢文理解において重要な役割を担っている。
コードとデータセットはGitHubでリリースしています。
論文 参考訳(メタデータ) (2023-05-22T06:30:02Z) - A Bilingual Parallel Corpus with Discourse Annotations [82.07304301996562]
本稿では,Jiang et al. (2022)で最初に導入された大きな並列コーパスであるBWBと,注釈付きテストセットについて述べる。
BWBコーパスは、専門家によって英語に翻訳された中国の小説で構成されており、注釈付きテストセットは、様々な談話現象をモデル化する機械翻訳システムの能力を調査するために設計されている。
論文 参考訳(メタデータ) (2022-10-26T12:33:53Z) - HUE: Pretrained Model and Dataset for Understanding Hanja Documents of
Ancient Korea [59.35609710776603]
我々は、時系列属性、トピック分類、名前付きエンティティ認識、要約検索タスクからなるハンハ理解評価データセットをリリースする。
また、本研究では、14世紀から19世紀にかけての2つの主要なコーパスについて、ヨセオン王朝のアンナスと王立事務局の日記のトレーニングを継続したBERTベースのモデルについても紹介する。
論文 参考訳(メタデータ) (2022-10-11T03:04:28Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - A Multilingual Neural Machine Translation Model for Biomedical Data [84.17747489525794]
生物医学領域におけるテキストの翻訳に使用できる多言語ニューラルマシン翻訳モデルをリリースする。
このモデルは5つの言語(フランス語、ドイツ語、イタリア語、韓国語、スペイン語)から英語に翻訳できる。
ドメインタグを使用して、大量のジェネリックおよびバイオメディカルデータをトレーニングする。
論文 参考訳(メタデータ) (2020-08-06T21:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。