論文の概要: Restoring and Mining the Records of the Joseon Dynasty via Neural
Language Modeling and Machine Translation
- arxiv url: http://arxiv.org/abs/2104.05964v1
- Date: Tue, 13 Apr 2021 06:40:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 23:22:46.563419
- Title: Restoring and Mining the Records of the Joseon Dynasty via Neural
Language Modeling and Machine Translation
- Title(参考訳): ニューラルネットワークモデリングと機械翻訳による朝鮮王朝の記録の復元とマイニング
- Authors: Kyeongpil Kang, Kyohoon Jin, Soyoung Yang, Sujin Jang, Jaegul Choo,
Yougbin Kim
- Abstract要約: 本論文では,自己保持機構に基づく履歴文書の復元と翻訳のためのマルチタスク学習手法を提案する。
提案手法は,マルチタスク学習を使わずに,翻訳作業の精度をベースラインよりも大幅に向上させる。
- 参考スコア(独自算出の注目度): 16.28883401668289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding voluminous historical records provides clues on the past in
various aspects, such as social and political issues and even natural science
facts. However, it is generally difficult to fully utilize the historical
records, since most of the documents are not written in a modern language and
part of the contents are damaged over time. As a result, restoring the damaged
or unrecognizable parts as well as translating the records into modern
languages are crucial tasks. In response, we present a multi-task learning
approach to restore and translate historical documents based on a
self-attention mechanism, specifically utilizing two Korean historical records,
ones of the most voluminous historical records in the world. Experimental
results show that our approach significantly improves the accuracy of the
translation task than baselines without multi-task learning. In addition, we
present an in-depth exploratory analysis on our translated results via topic
modeling, uncovering several significant historical events.
- Abstract(参考訳): 古記録を理解することは、社会問題や政治問題、さらには自然科学の事実など、様々な面で過去の手がかりとなる。
しかし、文献のほとんどが現代語で書かれておらず、内容の一部が時間とともに破損しているため、歴史的記録を十分に活用することは一般的に困難である。
結果として、損傷した部分や認識できない部分の復元と、記録を現代言語に翻訳することが重要なタスクとなる。
そこで本研究では,世界有数の歴史記録である2つの韓国の歴史記録を活用し,自己照査機構に基づく歴史文書の復元と翻訳を行うマルチタスク学習手法を提案する。
実験の結果,マルチタスク学習を必要とせず,ベースラインよりも翻訳タスクの精度が大幅に向上した。
さらに,いくつかの重要な歴史的出来事を明らかにするために,トピックモデリングによる翻訳結果の詳細な探索分析を行った。
関連論文リスト
- When Does Classical Chinese Help? Quantifying Cross-Lingual Transfer in Hanja and Kanbun [48.07219104902607]
古典中国語から漢語・漢文への言語間移動可能性の仮定を疑問視する。
実験の結果,漢文で書かれた古代朝鮮語文書の言語モデル性能に対する古典中国語データセットの影響は最小限であった。
論文 参考訳(メタデータ) (2024-11-07T15:59:54Z) - Puzzle Pieces Picker: Deciphering Ancient Chinese Characters with Radical Reconstruction [73.26364649572237]
Oracle Bone Inscriptionsは、世界で最も古い書式である。
多くのOracle Bone Inscriptions (OBI) は未解読のままであり、今日の古生物学におけるグローバルな課題の1つとなっている。
本稿では, 急進的再構成によってこれらの謎的文字を解読する新しい手法, Puzzle Pieces Picker (P$3$) を提案する。
論文 参考訳(メタデータ) (2024-06-05T07:34:39Z) - PHD: Pixel-Based Language Modeling of Historical Documents [55.75201940642297]
実史文書に類似した合成スキャンを生成する新しい手法を提案する。
我々は,1700-1900年代における合成スキャンと実際の歴史新聞を組み合わせて,我々のモデルであるPHDを事前訓練した。
我々は、この領域におけるその有用性を強調しながら、我々のモデルを歴史的QAタスクに適用することに成功しました。
論文 参考訳(メタデータ) (2023-10-22T08:45:48Z) - Transfer Learning across Several Centuries: Machine and Historian
Integrated Method to Decipher Royal Secretary's Diary [1.105375732595832]
歴史的テキストにおけるNERは、注釈付きコーパスの不足、多言語多様さ、様々なノイズ、現代の言語モデルとは全く異なる慣習といった課題に直面している。
本稿では,何世紀にもわたって記録された韓国の歴史的コーパス(SeungJeongWonと名づけられた王立書記官日記)を紹介する。
論文 参考訳(メタデータ) (2023-06-26T11:00:35Z) - Multilingual Event Extraction from Historical Newspaper Adverts [42.987470570997694]
本稿では,歴史文献の新たな領域からのイベント抽出の課題について述べる。
我々は,近代植民地時代の新聞広告からなる,英語,フランス語,オランダ語に新しい多言語データセットを導入する。
注記データが少ない場合でも,問題を抽出的QAタスクとして定式化することにより,驚くほど優れた結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-18T12:40:41Z) - HUE: Pretrained Model and Dataset for Understanding Hanja Documents of
Ancient Korea [59.35609710776603]
我々は、時系列属性、トピック分類、名前付きエンティティ認識、要約検索タスクからなるハンハ理解評価データセットをリリースする。
また、本研究では、14世紀から19世紀にかけての2つの主要なコーパスについて、ヨセオン王朝のアンナスと王立事務局の日記のトレーニングを継続したBERTベースのモデルについても紹介する。
論文 参考訳(メタデータ) (2022-10-11T03:04:28Z) - Placing (Historical) Facts on a Timeline: A Classification cum Coref
Resolution Approach [4.809236881780707]
タイムラインは、ある期間に起こった重要な歴史的事実を視覚化する最も効果的な方法の1つである。
複数の(歴史的)テキスト文書からイベントタイムラインを生成するための2段階システムを提案する。
我々の結果は、歴史学者、歴史研究の進展、そして国の社会・政治の風景を理解する上で非常に役立ちます。
論文 参考訳(メタデータ) (2022-06-28T15:36:44Z) - Summarising Historical Text in Modern Languages [13.886432536330805]
本稿では,言語の歴史形式の文書を対応する現代語で要約する,歴史的テキスト要約の課題を紹介する。
これは、歴史家やデジタル人文科学研究者にとって基本的に重要なルーチンであるが、自動化されていない。
我々は、数百年前のドイツや中国の歴史的ニュースを現代ドイツ語や中国語で要約した高品質なゴールドスタンダードテキスト要約データセットをコンパイルする。
論文 参考訳(メタデータ) (2021-01-26T13:00:07Z) - Ranking Enhanced Dialogue Generation [77.8321855074999]
対話履歴を効果的に活用する方法は、マルチターン対話生成において重要な問題である。
これまでの研究は通常、歴史をモデル化するために様々なニューラルネットワークアーキテクチャを使用していた。
本稿では,ランキング拡張対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T01:49:56Z) - Combining Visual and Textual Features for Semantic Segmentation of
Historical Newspapers [2.5899040911480187]
本稿では,歴史新聞のセマンティックセマンティックセグメンテーションのためのマルチモーダルアプローチを提案する。
ダイアクロニックなスイスとルクセンブルクの新聞の実験に基づいて、視覚的特徴とテキスト的特徴の予測力について検討する。
その結果、強力な視覚ベースラインと比較して、マルチモーダルモデルの一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-02-14T17:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。