論文の概要: Multilingual Event Extraction from Historical Newspaper Adverts
- arxiv url: http://arxiv.org/abs/2305.10928v1
- Date: Thu, 18 May 2023 12:40:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 15:15:46.575789
- Title: Multilingual Event Extraction from Historical Newspaper Adverts
- Title(参考訳): 歴史新聞広告からの多言語イベント抽出
- Authors: Nadav Borenstein and Natalia da Silva Perez and Isabelle Augenstein
- Abstract要約: 本稿では,歴史文献の新たな領域からのイベント抽出の課題について述べる。
我々は,近代植民地時代の新聞広告からなる,英語,フランス語,オランダ語に新しい多言語データセットを導入する。
注記データが少ない場合でも,問題を抽出的QAタスクとして定式化することにより,驚くほど優れた結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 42.987470570997694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: NLP methods can aid historians in analyzing textual materials in greater
volumes than manually feasible. Developing such methods poses substantial
challenges though. First, acquiring large, annotated historical datasets is
difficult, as only domain experts can reliably label them. Second, most
available off-the-shelf NLP models are trained on modern language texts,
rendering them significantly less effective when applied to historical corpora.
This is particularly problematic for less well studied tasks, and for languages
other than English. This paper addresses these challenges while focusing on the
under-explored task of event extraction from a novel domain of historical
texts. We introduce a new multilingual dataset in English, French, and Dutch
composed of newspaper ads from the early modern colonial period reporting on
enslaved people who liberated themselves from enslavement. We find that: 1)
even with scarce annotated data, it is possible to achieve surprisingly good
results by formulating the problem as an extractive QA task and leveraging
existing datasets and models for modern languages; and 2) cross-lingual
low-resource learning for historical languages is highly challenging, and
machine translation of the historical datasets to the considered target
languages is, in practice, often the best-performing solution.
- Abstract(参考訳): nlp法は、歴史学者が手作業でできる以上の量のテキスト資料を分析するのに役立つ。
しかし、そのような手法の開発には大きな課題がある。
まず、大きな注釈付き歴史的データセットを取得することは、ドメインの専門家だけが確実にラベル付けできるため、難しい。
第二に、市販のNLPモデルは現代の言語テキストで訓練されており、過去のコーパスに適用した場合、かなり効果が低い。
これは、あまりよく研究されていない仕事や、英語以外の言語にとって特に問題となる。
本稿では,新しい歴史文献の領域からのイベント抽出の未熟な課題に注目しながら,これらの課題に対処する。
我々は、近代植民地時代初期の新聞広告で構成された英語、フランス語、オランダ語で新しい多言語データセットを導入し、奴隷から解放された奴隷を報告した。
私たちはそれを見つけました
1) 注釈付きデータが少ない場合でも、問題を抽出QAタスクとして定式化し、既存のデータセットやモデルを現代言語に活用することで驚くほど良い結果が得られる。
2) 歴史言語のための言語間低リソース学習は非常に困難であり, 歴史的データセットから対象言語への機械翻訳は, 多くの場合, 最善の解決法である。
関連論文リスト
- A multi-level multi-label text classification dataset of 19th century Ottoman and Russian literary and critical texts [8.405938712823563]
本稿では,3000以上の文書からなる多レベル多言語テキスト分類データセットを提案する。
このデータセットは19世紀のトルコ語とロシア語の文学的および批判的なテキストを特徴としている。
このデータセットに大規模言語モデル(LLM)を適用した最初の研究である。
論文 参考訳(メタデータ) (2024-07-21T12:14:45Z) - Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers [81.47046536073682]
本稿では,MLLM(Multilingual Large Language Model)文学における最近の進歩と新たなトレンドを要約する一貫した視点を提示する。
私たちの研究がコミュニティに迅速なアクセスを提供し、MLLMにおける画期的な研究を促進することを願っています。
論文 参考訳(メタデータ) (2024-04-07T11:52:44Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - hmBERT: Historical Multilingual Language Models for Named Entity
Recognition [0.6226609932118123]
我々は、人物、場所、組織を史料で特定するためにNERに取り組む。
本研究では, 歴史的ドイツ語, 英語, フランス語, スウェーデン語, フィンランド語について, 大規模な歴史的言語モデルを訓練することによってNERに取り組む。
論文 参考訳(メタデータ) (2022-05-31T07:30:33Z) - From FreEM to D'AlemBERT: a Large Corpus and a Language Model for Early
Modern French [57.886210204774834]
我々は、近世フランス語(歴史的フランス語:16$textth$から18$textth$ century)のためのNLPツールを開発する取り組みを提示する。
我々は、近世フランス語のtextFreEM_textmax$ corpusと、$textFreEM_textmax$でトレーニングされたRoBERTaベースの言語モデルであるD'AlemBERTを提示する。
論文 参考訳(メタデータ) (2022-02-18T22:17:22Z) - Restoring and Mining the Records of the Joseon Dynasty via Neural
Language Modeling and Machine Translation [20.497110880878544]
本論文では,自己保持機構に基づく履歴文書の復元と翻訳のためのマルチタスク学習手法を提案する。
提案手法は,マルチタスク学習を使わずに,翻訳作業の精度をベースラインよりも大幅に向上させる。
論文 参考訳(メタデータ) (2021-04-13T06:40:25Z) - Summarising Historical Text in Modern Languages [13.886432536330805]
本稿では,言語の歴史形式の文書を対応する現代語で要約する,歴史的テキスト要約の課題を紹介する。
これは、歴史家やデジタル人文科学研究者にとって基本的に重要なルーチンであるが、自動化されていない。
我々は、数百年前のドイツや中国の歴史的ニュースを現代ドイツ語や中国語で要約した高品質なゴールドスタンダードテキスト要約データセットをコンパイルする。
論文 参考訳(メタデータ) (2021-01-26T13:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。