Fugu-MT 論文翻訳(概要): Multilingual Event Extraction from Historical Newspaper Adverts

論文の概要: Multilingual Event Extraction from Historical Newspaper Adverts

arxiv url: http://arxiv.org/abs/2305.10928v1
Date: Thu, 18 May 2023 12:40:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-19 15:15:46.575789
Title: Multilingual Event Extraction from Historical Newspaper Adverts
Title（参考訳）: 歴史新聞広告からの多言語イベント抽出
Authors: Nadav Borenstein and Natalia da Silva Perez and Isabelle Augenstein
Abstract要約: 本稿では,歴史文献の新たな領域からのイベント抽出の課題について述べる。我々は,近代植民地時代の新聞広告からなる,英語,フランス語,オランダ語に新しい多言語データセットを導入する。注記データが少ない場合でも,問題を抽出的QAタスクとして定式化することにより,驚くほど優れた結果が得られることがわかった。
参考スコア（独自算出の注目度）: 42.987470570997694
License: http://creativecommons.org/licenses/by/4.0/
Abstract: NLP methods can aid historians in analyzing textual materials in greater volumes than manually feasible. Developing such methods poses substantial challenges though. First, acquiring large, annotated historical datasets is difficult, as only domain experts can reliably label them. Second, most available off-the-shelf NLP models are trained on modern language texts, rendering them significantly less effective when applied to historical corpora. This is particularly problematic for less well studied tasks, and for languages other than English. This paper addresses these challenges while focusing on the under-explored task of event extraction from a novel domain of historical texts. We introduce a new multilingual dataset in English, French, and Dutch composed of newspaper ads from the early modern colonial period reporting on enslaved people who liberated themselves from enslavement. We find that: 1) even with scarce annotated data, it is possible to achieve surprisingly good results by formulating the problem as an extractive QA task and leveraging existing datasets and models for modern languages; and 2) cross-lingual low-resource learning for historical languages is highly challenging, and machine translation of the historical datasets to the considered target languages is, in practice, often the best-performing solution.
Abstract（参考訳）: nlp法は、歴史学者が手作業でできる以上の量のテキスト資料を分析するのに役立つ。しかし、そのような手法の開発には大きな課題がある。まず、大きな注釈付き歴史的データセットを取得することは、ドメインの専門家だけが確実にラベル付けできるため、難しい。第二に、市販のNLPモデルは現代の言語テキストで訓練されており、過去のコーパスに適用した場合、かなり効果が低い。これは、あまりよく研究されていない仕事や、英語以外の言語にとって特に問題となる。本稿では,新しい歴史文献の領域からのイベント抽出の未熟な課題に注目しながら,これらの課題に対処する。我々は、近代植民地時代初期の新聞広告で構成された英語、フランス語、オランダ語で新しい多言語データセットを導入し、奴隷から解放された奴隷を報告した。私たちはそれを見つけました 1) 注釈付きデータが少ない場合でも、問題を抽出QAタスクとして定式化し、既存のデータセットやモデルを現代言語に活用することで驚くほど良い結果が得られる。 2) 歴史言語のための言語間低リソース学習は非常に困難であり, 歴史的データセットから対象言語への機械翻訳は, 多くの場合, 最善の解決法である。

関連論文リスト

Named Entity Recognition of Historical Text via Large Language Model [1.5469452301122175]
名前付きエンティティ認識(NER)は、構造化されていないテキストから情報を抽出する上で重要な役割を果たす。伝統的に、NERは大量の注釈付きトレーニングデータを必要とする教師付き機械学習アプローチを使用して対処される。本研究では,NER に LLM を適用する可能性について,ゼロショットと少数ショットのプロンプト戦略を用いて検討した。 HIPE-2022データセットを用いて行った実験により, この環境下でのNERタスクにおいて, LLMは合理的に高い性能が得られることが示された。
論文参考訳（メタデータ） (2025-08-25T14:52:11Z)
Named Entity Recognition in Historical Italian: The Case of Giacomo Leopardi's Zibaldone [4.795582035438343]
歴史的テキストの課題に適応できる計算技術が緊急に必要である。大規模言語モデル(LLM)の台頭は、自然言語処理に革命をもたらした。イタリア語のテキストに対する詳細な評価は提案されていない。
論文参考訳（メタデータ） (2025-05-26T15:16:48Z)
Modern Models, Medieval Texts: A POS Tagging Study of Old Occitan [0.1979158763744267]
大規模言語モデル (LLM) は自然言語処理において顕著な能力を示した。本研究では,古オクシタンのPOSタグ付けにおけるオープンソースのLDMの性能について検討した。
論文参考訳（メタデータ） (2025-03-10T20:16:01Z)
New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。 MLLM(Multimodal Large Language Models)の試験場として機能する。
論文参考訳（メタデータ） (2025-02-27T13:58:44Z)
NER4all or Context is All You Need: Using LLMs for low-effort, high-performance NER on historical texts. A humanities informed approach [0.03187482513047917]
我々は,NERの2つの主要なNLPフレームワークにおいて,手軽に利用できる,最先端のLCMが顕著に優れていることを示す。提案手法は,NLPツールの確立に必要なスクリプティング言語や計算能力の障壁を取り除くことで,すべての歴史学者がNERにアクセスできるようにする。
論文参考訳（メタデータ） (2025-02-04T16:54:23Z)
A multi-level multi-label text classification dataset of 19th century Ottoman and Russian literary and critical texts [8.405938712823563]
本稿では,3000以上の文書からなる多レベル多言語テキスト分類データセットを提案する。このデータセットは19世紀のトルコ語とロシア語の文学的および批判的なテキストを特徴としている。このデータセットに大規模言語モデル(LLM)を適用した最初の研究である。
論文参考訳（メタデータ） (2024-07-21T12:14:45Z)
Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers [81.47046536073682]
本稿では,MLLM(Multilingual Large Language Model)文学における最近の進歩と新たなトレンドを要約する一貫した視点を提示する。私たちの研究がコミュニティに迅速なアクセスを提供し、MLLMにおける画期的な研究を促進することを願っています。
論文参考訳（メタデータ） (2024-04-07T11:52:44Z)
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文参考訳（メタデータ） (2023-09-17T23:49:10Z)
AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文参考訳（メタデータ） (2023-03-29T17:03:21Z)
Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文参考訳（メタデータ） (2023-01-22T18:22:55Z)
hmBERT: Historical Multilingual Language Models for Named Entity Recognition [0.6226609932118123]
我々は、人物、場所、組織を史料で特定するためにNERに取り組む。本研究では, 歴史的ドイツ語, 英語, フランス語, スウェーデン語, フィンランド語について, 大規模な歴史的言語モデルを訓練することによってNERに取り組む。
論文参考訳（メタデータ） (2022-05-31T07:30:33Z)
From FreEM to D'AlemBERT: a Large Corpus and a Language Model for Early Modern French [57.886210204774834]
我々は、近世フランス語(歴史的フランス語:16$textth$から18$textth$ century)のためのNLPツールを開発する取り組みを提示する。我々は、近世フランス語のtextFreEM_textmax$ corpusと、$textFreEM_textmax$でトレーニングされたRoBERTaベースの言語モデルであるD'AlemBERTを提示する。
論文参考訳（メタデータ） (2022-02-18T22:17:22Z)
Restoring and Mining the Records of the Joseon Dynasty via Neural Language Modeling and Machine Translation [20.497110880878544]
本論文では,自己保持機構に基づく履歴文書の復元と翻訳のためのマルチタスク学習手法を提案する。提案手法は,マルチタスク学習を使わずに,翻訳作業の精度をベースラインよりも大幅に向上させる。
論文参考訳（メタデータ） (2021-04-13T06:40:25Z)
Summarising Historical Text in Modern Languages [13.886432536330805]
本稿では,言語の歴史形式の文書を対応する現代語で要約する,歴史的テキスト要約の課題を紹介する。これは、歴史家やデジタル人文科学研究者にとって基本的に重要なルーチンであるが、自動化されていない。我々は、数百年前のドイツや中国の歴史的ニュースを現代ドイツ語や中国語で要約した高品質なゴールドスタンダードテキスト要約データセットをコンパイルする。
論文参考訳（メタデータ） (2021-01-26T13:00:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。