論文の概要: Transfer Learning across Several Centuries: Machine and Historian
Integrated Method to Decipher Royal Secretary's Diary
- arxiv url: http://arxiv.org/abs/2306.14592v1
- Date: Mon, 26 Jun 2023 11:00:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 13:54:46.048280
- Title: Transfer Learning across Several Centuries: Machine and Historian
Integrated Method to Decipher Royal Secretary's Diary
- Title(参考訳): 複数のセンチュリーをまたがる移動学習: 機械と史的統合手法による王立書記日記の解読
- Authors: Sojung Lucia Kim and Taehong Jang and Joonmo Ahn and Hyungil Lee and
Jaehyuk Lee
- Abstract要約: 歴史的テキストにおけるNERは、注釈付きコーパスの不足、多言語多様さ、様々なノイズ、現代の言語モデルとは全く異なる慣習といった課題に直面している。
本稿では,何世紀にもわたって記録された韓国の歴史的コーパス(SeungJeongWonと名づけられた王立書記官日記)を紹介する。
- 参考スコア(独自算出の注目度): 1.105375732595832
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A named entity recognition and classification plays the first and foremost
important role in capturing semantics in data and anchoring in translation as
well as downstream study for history. However, NER in historical text has faced
challenges such as scarcity of annotated corpus, multilanguage variety, various
noise, and different convention far different from the contemporary language
model. This paper introduces Korean historical corpus (Diary of Royal secretary
which is named SeungJeongWon) recorded over several centuries and recently
added with named entity information as well as phrase markers which historians
carefully annotated. We fined-tuned the language model on history corpus,
conducted extensive comparative experiments using our language model and
pretrained muti-language models. We set up the hypothesis of combination of
time and annotation information and tested it based on statistical t test. Our
finding shows that phrase markers clearly improve the performance of NER model
in predicting unseen entity in documents written far different time period. It
also shows that each of phrase marker and corpus-specific trained model does
not improve the performance. We discuss the future research directions and
practical strategies to decipher the history document.
- Abstract(参考訳): 名前付きエンティティ認識と分類は、データのセマンティクスをキャプチャし、翻訳をアンカーする、そして歴史の下流研究において、最初の最も重要な役割を担っている。
しかし、歴史テキストのnerは、注釈付きコーパスの不足、多言語多様性、様々なノイズ、現代の言語モデルとは大きく異なる慣習といった課題に直面している。
本稿では,何世紀にもわたって記録された韓国の歴史的コーパス(SeungJeongWonと名づけられた王立書記官日記)について紹介し,近年,歴史学者が注意深い注釈を付けたフレーズマーカーとともに名付けられた実体情報を加えている。
歴史コーパスで言語モデルを微調整し,言語モデルと事前学習した変異言語モデルを用いて比較実験を行った。
時間とアノテーション情報の組み合わせの仮説を定式化し,統計的tテストに基づいて検証した。
その結果, フレーズマーカーは, 非常に異なる期間に書かれた文書において, 未知の実体を予測することにより, NERモデルの性能を著しく向上させることがわかった。
また、フレーズマーカーとコーパス固有の訓練モデルがそれぞれ性能を向上しないことを示す。
歴史文書を解読するための今後の研究方針と実践戦略について論じる。
関連論文リスト
- Contrastive Entity Coreference and Disambiguation for Historical Texts [2.446672595462589]
既存のエンティティの曖昧さの方法はしばしば、現代の知識ベースに記憶されていない個人を悩ませる歴史文書の正確さに欠ける。
本研究は,文献の文書間照合の解決と曖昧さの解消に3つの重要な貢献をしている。
論文 参考訳(メタデータ) (2024-06-21T18:22:14Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - People and Places of Historical Europe: Bootstrapping Annotation
Pipeline and a New Corpus of Named Entities in Late Medieval Texts [0.0]
我々はチェコ語、ラテン語、ドイツ語を中心に書かれた中世後期の憲章から3.6万文の新しいNERコーパスを開発する。
我々は、既知の歴史人物や場所のリストと、未注釈の歴史的テキストのコーパスから始めることができ、情報検索技術を用いて、NER注釈コーパスを自動的にブートストラップできることを示す。
論文 参考訳(メタデータ) (2023-05-26T08:05:01Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - hmBERT: Historical Multilingual Language Models for Named Entity
Recognition [0.6226609932118123]
我々は、人物、場所、組織を史料で特定するためにNERに取り組む。
本研究では, 歴史的ドイツ語, 英語, フランス語, スウェーデン語, フィンランド語について, 大規模な歴史的言語モデルを訓練することによってNERに取り組む。
論文 参考訳(メタデータ) (2022-05-31T07:30:33Z) - HistBERT: A Pre-trained Language Model for Diachronic Lexical Semantic
Analysis [3.2851864672627618]
本稿では,英語のバランスを保ったコーパスに基づいて,事前学習したBERTベースの言語モデルHistBERTを提案する。
単語類似性および意味変化解析における有望な結果を報告する。
論文 参考訳(メタデータ) (2022-02-08T02:53:48Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Summarising Historical Text in Modern Languages [13.886432536330805]
本稿では,言語の歴史形式の文書を対応する現代語で要約する,歴史的テキスト要約の課題を紹介する。
これは、歴史家やデジタル人文科学研究者にとって基本的に重要なルーチンであるが、自動化されていない。
我々は、数百年前のドイツや中国の歴史的ニュースを現代ドイツ語や中国語で要約した高品質なゴールドスタンダードテキスト要約データセットをコンパイルする。
論文 参考訳(メタデータ) (2021-01-26T13:00:07Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。