論文の概要: Leave no Place Behind: Improved Geolocation in Humanitarian Documents
- arxiv url: http://arxiv.org/abs/2309.02914v1
- Date: Wed, 6 Sep 2023 11:20:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 15:44:50.837756
- Title: Leave no Place Behind: Improved Geolocation in Humanitarian Documents
- Title(参考訳): 残らない場所:人道的文書の位置情報の改善
- Authors: Enrico M. Belliardo, Kyriaki Kalimeri, Yelena Mejova
- Abstract要約: 我々は、人気のある名前付きエンティティ認識(NER)ツールであるSpacyとRoberTaを微調整するための注釈付きリソースを開発した。
次に、候補地をGeoNamesデータベースにリンクするジオコーディング手法FeatureRankを提案する。
人道領域のデータによって分類器の性能が向上するだけでなく(F1 = 0.92まで)、既存のツールのバイアスも軽減される。
- 参考スコア(独自算出の注目度): 3.7577439404936803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Geographical location is a crucial element of humanitarian response,
outlining vulnerable populations, ongoing events, and available resources.
Latest developments in Natural Language Processing may help in extracting vital
information from the deluge of reports and documents produced by the
humanitarian sector. However, the performance and biases of existing
state-of-the-art information extraction tools are unknown. In this work, we
develop annotated resources to fine-tune the popular Named Entity Recognition
(NER) tools Spacy and roBERTa to perform geotagging of humanitarian texts. We
then propose a geocoding method FeatureRank which links the candidate locations
to the GeoNames database. We find that not only does the humanitarian-domain
data improves the performance of the classifiers (up to F1 = 0.92), but it also
alleviates some of the bias of the existing tools, which erroneously favor
locations in the Western countries. Thus, we conclude that more resources from
non-Western documents are necessary to ensure that off-the-shelf NER systems
are suitable for the deployment in the humanitarian sector.
- Abstract(参考訳): 地理的な位置は人道的対応の重要な要素であり、脆弱な人口、進行中の出来事、利用可能な資源を概説している。
自然言語処理の最近の進歩は、人道部門が作成する報告書や文書の希薄化から重要な情報を抽出するのに役立つかもしれない。
しかし,既存の情報抽出ツールの性能やバイアスは明らかでない。
本研究では,人文的テキストのジオタグ化を行うために,一般的な名前付きエンティティ認識(NER)ツールであるSpacyとRoBERTaを微調整するアノテートリソースを開発する。
次に、候補地をGeoNamesデータベースにリンクするジオコーディング手法FeatureRankを提案する。
人道領域のデータによって分類器の性能が向上するだけでなく(F1=0.92まで)、西欧諸国の場所を誤って好んでいる既存のツールの偏見を和らげることが判明した。
したがって,非西洋文書からのリソースを増やすことで,人道的分野への展開にオフ・ザ・セット・ナーシステムが適していることを保証することができる。
関連論文リスト
- Quantitative Information Extraction from Humanitarian Documents [3.0606009461029395]
我々は,その重要な文脈に沿って,このような量的情報の抽出に注釈付きデータセットを貢献する。
我々は,そのユニットと合わせて量の抽出を行うために,独自の自然言語処理パイプラインを開発した。
提案したモデルは、特にドミニカ共和国および一部のアフリカ諸国に関する文書において、パフォーマンスを一貫して改善する。
論文 参考訳(メタデータ) (2024-08-09T08:46:38Z) - Where on Earth Do Users Say They Are?: Geo-Entity Linking for Noisy Multilingual User Input [2.516307239032451]
本稿では,実世界の位置情報をラベル付きユーザ・インプット・ロケーション名から平均的な埋め込みとして表現する手法を提案する。
本稿では,グローバルおよび多言語ソーシャルメディアデータセット上でのジオエンタリティリンクの改善について述べる。
論文 参考訳(メタデータ) (2024-04-29T15:18:33Z) - Memory efficient location recommendation through proximity-aware
representation [8.505840656442217]
逐次レコメンデーション(PASR:Sequential Recommendation)のための近接認識型領域表現を提案する。
本稿では,重要サンプリングを用いた新たな損失関数を用いて,最適化時の情報的負のサンプルを強調することで,疎結合問題に対処する。
3つの実世界位置ベースソーシャルネットワーキング(LBSN)データセットを用いて評価を行い,PASRが最先端の逐次位置推薦手法を上回ることを示した。
論文 参考訳(メタデータ) (2023-10-10T09:53:07Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - Geo-Encoder: A Chunk-Argument Bi-Encoder Framework for Chinese
Geographic Re-Ranking [61.60169764507917]
中国の地理的再ランクタスクは、検索された候補者の中で最も関連性の高い住所を見つけることを目的としている。
そこで我々は,中国語の地理的意味論をより効果的に統合する,革新的なフレームワークであるGeo-Encoderを提案する。
論文 参考訳(メタデータ) (2023-09-04T13:44:50Z) - Leveraging Domain Knowledge for Inclusive and Bias-aware Humanitarian
Response Entry Classification [3.824858358548714]
我々は人道的データ分析のための効果的かつ倫理的なシステムの提供を目指している。
人道分析フレームワークに適応した新しいアーキテクチャを導入する。
我々はまた、測定とバイアスの体系的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-26T09:15:05Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z) - Gradient Imitation Reinforcement Learning for General Low-Resource
Information Extraction [80.64518530825801]
本研究では,ラベル付きデータに対する勾配降下方向を模倣するために擬似ラベル付きデータを奨励するグラディエント強化学習法(GIRL)を開発した。
GIRLを利用して、低リソース設定ですべてのIEサブタスク(エンティティ認識、関係抽出、イベント抽出)を解決します。
論文 参考訳(メタデータ) (2022-11-11T05:37:19Z) - A General Purpose Neural Architecture for Geospatial Systems [142.43454584836812]
本稿では,空間的帰納バイアスを持つ汎用ニューラルアーキテクチャ(GPNA)の構築に向けたロードマップを示す。
このようなモデルがコミュニティのメンバー間の協力をいかに促進するかを考察する。
論文 参考訳(メタデータ) (2022-11-04T09:58:57Z) - HumSet: Dataset of Multilingual Information Extraction and
Classification for Humanitarian Crisis Response [5.057850174013127]
HumSetは、人道的応答コミュニティの専門家によって注釈された人道的応答文書の新しい多言語データセットである。
このデータセットは3つの言語(英語、フランス語、スペイン語)で文書を提供し、2018年から2021年までのさまざまな人道的危機をカバーしている。
HumSetはまた、新規で挑戦的なエントリ抽出とマルチラベルエントリ分類タスクも提供する。
論文 参考訳(メタデータ) (2022-10-10T11:28:07Z) - A Transfer Learning Pipeline for Educational Resource Discovery with
Application in Leading Paragraph Generation [71.92338855383238]
本稿では,新しいドメインに対するWebリソース発見を自動化するパイプラインを提案する。
パイプラインは2つの類似しているが新規なターゲットドメインで評価すると、F1スコアは0.94と0.82となる。
本研究は,サーベイジェネレーションのための各種Webリソースを考察した最初の研究である。
論文 参考訳(メタデータ) (2022-01-07T03:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。