論文の概要: Multilingual Event Extraction from Historical Newspaper Adverts
- arxiv url: http://arxiv.org/abs/2305.10928v1
- Date: Thu, 18 May 2023 12:40:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 15:15:46.575789
- Title: Multilingual Event Extraction from Historical Newspaper Adverts
- Title(参考訳): 歴史新聞広告からの多言語イベント抽出
- Authors: Nadav Borenstein and Natalia da Silva Perez and Isabelle Augenstein
- Abstract要約: 本稿では,歴史文献の新たな領域からのイベント抽出の課題について述べる。
我々は,近代植民地時代の新聞広告からなる,英語,フランス語,オランダ語に新しい多言語データセットを導入する。
注記データが少ない場合でも,問題を抽出的QAタスクとして定式化することにより,驚くほど優れた結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 42.987470570997694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: NLP methods can aid historians in analyzing textual materials in greater
volumes than manually feasible. Developing such methods poses substantial
challenges though. First, acquiring large, annotated historical datasets is
difficult, as only domain experts can reliably label them. Second, most
available off-the-shelf NLP models are trained on modern language texts,
rendering them significantly less effective when applied to historical corpora.
This is particularly problematic for less well studied tasks, and for languages
other than English. This paper addresses these challenges while focusing on the
under-explored task of event extraction from a novel domain of historical
texts. We introduce a new multilingual dataset in English, French, and Dutch
composed of newspaper ads from the early modern colonial period reporting on
enslaved people who liberated themselves from enslavement. We find that: 1)
even with scarce annotated data, it is possible to achieve surprisingly good
results by formulating the problem as an extractive QA task and leveraging
existing datasets and models for modern languages; and 2) cross-lingual
low-resource learning for historical languages is highly challenging, and
machine translation of the historical datasets to the considered target
languages is, in practice, often the best-performing solution.
- Abstract(参考訳): nlp法は、歴史学者が手作業でできる以上の量のテキスト資料を分析するのに役立つ。
しかし、そのような手法の開発には大きな課題がある。
まず、大きな注釈付き歴史的データセットを取得することは、ドメインの専門家だけが確実にラベル付けできるため、難しい。
第二に、市販のNLPモデルは現代の言語テキストで訓練されており、過去のコーパスに適用した場合、かなり効果が低い。
これは、あまりよく研究されていない仕事や、英語以外の言語にとって特に問題となる。
本稿では,新しい歴史文献の領域からのイベント抽出の未熟な課題に注目しながら,これらの課題に対処する。
我々は、近代植民地時代初期の新聞広告で構成された英語、フランス語、オランダ語で新しい多言語データセットを導入し、奴隷から解放された奴隷を報告した。
私たちはそれを見つけました
1) 注釈付きデータが少ない場合でも、問題を抽出QAタスクとして定式化し、既存のデータセットやモデルを現代言語に活用することで驚くほど良い結果が得られる。
2) 歴史言語のための言語間低リソース学習は非常に困難であり, 歴史的データセットから対象言語への機械翻訳は, 多くの場合, 最善の解決法である。
関連論文リスト
- NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Massively Multilingual Language Models for Cross Lingual Fact Extraction
from Low Resource Indian Languages [9.005666503814307]
クロスリンガル情報抽出は、低資源のインド語テキストから英語のトリプルの形で事実情報を抽出することを目的としている。
我々は,F1総合スコア77.46のエンドツーエンド生成アプローチを考案した。
論文 参考訳(メタデータ) (2023-02-09T17:29:56Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - MINION: a Large-Scale and Diverse Dataset for Multilingual Event
Detection [65.46122357928041]
Event Detection (ED) は、テキスト中のイベント参照のトリガーワードを識別し、分類するタスクである。
主な疑問は、既存のEDモデルが異なる言語でどれだけうまく機能するか、EDが他の言語でどの程度困難であるか、EDの知識とアノテーションが言語間でどの程度うまく伝達できるかである。
EDのための大規模多言語データセット(MINION)を導入し、8つの異なる言語でのイベントを一貫してアノテートする。
論文 参考訳(メタデータ) (2022-11-11T02:09:51Z) - hmBERT: Historical Multilingual Language Models for Named Entity
Recognition [0.6226609932118123]
我々は、人物、場所、組織を史料で特定するためにNERに取り組む。
本研究では, 歴史的ドイツ語, 英語, フランス語, スウェーデン語, フィンランド語について, 大規模な歴史的言語モデルを訓練することによってNERに取り組む。
論文 参考訳(メタデータ) (2022-05-31T07:30:33Z) - From FreEM to D'AlemBERT: a Large Corpus and a Language Model for Early
Modern French [57.886210204774834]
我々は、近世フランス語(歴史的フランス語:16$textth$から18$textth$ century)のためのNLPツールを開発する取り組みを提示する。
我々は、近世フランス語のtextFreEM_textmax$ corpusと、$textFreEM_textmax$でトレーニングされたRoBERTaベースの言語モデルであるD'AlemBERTを提示する。
論文 参考訳(メタデータ) (2022-02-18T22:17:22Z) - Restoring and Mining the Records of the Joseon Dynasty via Neural
Language Modeling and Machine Translation [20.497110880878544]
本論文では,自己保持機構に基づく履歴文書の復元と翻訳のためのマルチタスク学習手法を提案する。
提案手法は,マルチタスク学習を使わずに,翻訳作業の精度をベースラインよりも大幅に向上させる。
論文 参考訳(メタデータ) (2021-04-13T06:40:25Z) - Summarising Historical Text in Modern Languages [13.886432536330805]
本稿では,言語の歴史形式の文書を対応する現代語で要約する,歴史的テキスト要約の課題を紹介する。
これは、歴史家やデジタル人文科学研究者にとって基本的に重要なルーチンであるが、自動化されていない。
我々は、数百年前のドイツや中国の歴史的ニュースを現代ドイツ語や中国語で要約した高品質なゴールドスタンダードテキスト要約データセットをコンパイルする。
論文 参考訳(メタデータ) (2021-01-26T13:00:07Z) - Pivot Through English: Reliably Answering Multilingual Questions without
Document Retrieval [4.4973334555746]
低リソース言語(LRL)における解答に対する既存の解答法は、英語に大きく遅れた。
文書検索を回避し、英語から低リソース言語への知識の確実に転送する、より現実的なタスクセットアップを利用可能なリソースに策定します。
このタスク設定内では、リランク付き英語学習セットに対する意味的類似性検索に類似した、Reranked Maximal Internal Product Search (RM-MIPS)を提案する。
論文 参考訳(メタデータ) (2020-12-28T04:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。