論文の概要: Quantitative Information Extraction from Humanitarian Documents
- arxiv url: http://arxiv.org/abs/2408.04941v1
- Date: Fri, 9 Aug 2024 08:46:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 16:18:44.189801
- Title: Quantitative Information Extraction from Humanitarian Documents
- Title(参考訳): 人道的文書からの定量的情報抽出
- Authors: Daniele Liberatore, Kyriaki Kalimeri, Derya Sever, Yelena Mejova,
- Abstract要約: 我々は,その重要な文脈に沿って,このような量的情報の抽出に注釈付きデータセットを貢献する。
我々は,そのユニットと合わせて量の抽出を行うために,独自の自然言語処理パイプラインを開発した。
提案したモデルは、特にドミニカ共和国および一部のアフリカ諸国に関する文書において、パフォーマンスを一貫して改善する。
- 参考スコア(独自算出の注目度): 3.0606009461029395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humanitarian action is accompanied by a mass of reports, summaries, news, and other documents. To guide its activities, important information must be quickly extracted from such free-text resources. Quantities, such as the number of people affected, amount of aid distributed, or the extent of infrastructure damage, are central to emergency response and anticipatory action. In this work, we contribute an annotated dataset for the humanitarian domain for the extraction of such quantitative information, along side its important context, including units it refers to, any modifiers, and the relevant event. Further, we develop a custom Natural Language Processing pipeline to extract the quantities alongside their units, and evaluate it in comparison to baseline and recent literature. The proposed model achieves a consistent improvement in the performance, especially in the documents pertaining to the Dominican Republic and select African countries. We make the dataset and code available to the research community to continue the improvement of NLP tools for the humanitarian domain.
- Abstract(参考訳): 人道的行動には、大量の報告、要約、ニュース、その他の文書が添付されている。
アクティビティをガイドするためには、そのような自由テキストリソースから重要な情報を素早く抽出する必要がある。
被災者数や援助額、インフラ被害の程度などは、緊急対応や予報行動の中心となっている。
本研究では,このような量的情報の抽出に,参照する単位,修飾子,関連する事象を含む重要な文脈に沿って,人道的領域に注釈付きデータセットを寄贈する。
さらに,本研究では,各ユニットに付随する量を抽出する独自の自然言語処理パイプラインを開発し,ベースラインや最近の文献と比較して評価する。
提案したモデルは、特にドミニカ共和国および一部のアフリカ諸国に関する文書において、パフォーマンスを一貫して改善する。
人道的領域のためのNLPツールの改善を継続するため、研究コミュニティにデータセットとコードを公開しています。
関連論文リスト
- HumVI: A Multilingual Dataset for Detecting Violent Incidents Impacting Humanitarian Aid [6.0520837495927315]
HumVIは、3つの言語(英語、フランス語、アラビア語)のニュース記事を含むデータセットで、それらが影響する人道セクターによって分類された暴力的な事件の事例を含む。
データセットのベンチマークを提供し、データ拡張やマスク損失など、さまざまなディープラーニングアーキテクチャとテクニックを活用しています。
論文 参考訳(メタデータ) (2024-10-08T21:08:13Z) - The Responsible Foundation Model Development Cheatsheet: A Review of Tools & Resources [100.23208165760114]
ファンデーションモデル開発は、急速に成長するコントリビュータ、科学者、アプリケーションを引き付けている。
責任ある開発プラクティスを形成するために、我々はFoundation Model Development Cheatsheetを紹介します。
論文 参考訳(メタデータ) (2024-06-24T15:55:49Z) - Assessing the quality of information extraction [0.0]
本稿では,情報抽出/検索の質と完全性を評価するための自動フレームワークを提案する。
本稿では,大規模言語モデルの入力/出力サイズ制限をどう処理し,その性能を解析するかを論じる。
論文 参考訳(メタデータ) (2024-04-05T12:51:48Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - Leave no Place Behind: Improved Geolocation in Humanitarian Documents [3.7577439404936803]
我々は、人気のある名前付きエンティティ認識(NER)ツールであるSpacyとRoberTaを微調整するための注釈付きリソースを開発した。
次に、候補地をGeoNamesデータベースにリンクするジオコーディング手法FeatureRankを提案する。
人道領域のデータによって分類器の性能が向上するだけでなく(F1 = 0.92まで)、既存のツールのバイアスも軽減される。
論文 参考訳(メタデータ) (2023-09-06T11:20:02Z) - A New Task and Dataset on Detecting Attacks on Human Rights Defenders [68.45906430323156]
我々は,500のオンラインニュース記事にクラウドソーシングされたアノテーションからなる人権擁護者に対する攻撃(HRDsAttack)を検出するための新しいデータセットを提案する。
アノテーションには、攻撃のタイプと場所に関する詳細な情報と、被害者に関する情報が含まれている。
いくつかのサブタスク上でベースラインモデルをトレーニングし,評価し,注釈付き特性を予測することで,データセットの有用性を実証する。
論文 参考訳(メタデータ) (2023-06-30T14:20:06Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Beyond Counting Datasets: A Survey of Multilingual Dataset Construction
and Necessary Resources [38.814057529254846]
公開されている156個のNLPデータセットの特徴について検討する。
言語に習熟したNLP研究者と集団労働者を対象に調査を行った。
メカニカルトルコプラットフォーム上で高品質な多言語データを収集するための戦略を同定する。
論文 参考訳(メタデータ) (2022-11-28T18:54:33Z) - HumSet: Dataset of Multilingual Information Extraction and
Classification for Humanitarian Crisis Response [5.057850174013127]
HumSetは、人道的応答コミュニティの専門家によって注釈された人道的応答文書の新しい多言語データセットである。
このデータセットは3つの言語(英語、フランス語、スペイン語)で文書を提供し、2018年から2021年までのさまざまな人道的危機をカバーしている。
HumSetはまた、新規で挑戦的なエントリ抽出とマルチラベルエントリ分類タスクも提供する。
論文 参考訳(メタデータ) (2022-10-10T11:28:07Z) - Ensuring the Inclusive Use of Natural Language Processing in the Global
Response to COVID-19 [58.720142291102135]
低リソース言語を網羅することで、現在のNLPアプローチと将来のNLPアプローチをより包括的に行う方法について議論する。
我々は,NLPの正の社会的影響を最大化することに関心のある研究者のために,いくつかの今後の方向性を提案する。
論文 参考訳(メタデータ) (2021-08-11T12:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。