論文の概要: HumSet: Dataset of Multilingual Information Extraction and
Classification for Humanitarian Crisis Response
- arxiv url: http://arxiv.org/abs/2210.04573v1
- Date: Mon, 10 Oct 2022 11:28:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 14:48:12.624052
- Title: HumSet: Dataset of Multilingual Information Extraction and
Classification for Humanitarian Crisis Response
- Title(参考訳): HumSet:人道危機対応のための多言語情報抽出と分類のデータセット
- Authors: Selim Fekih, Nicol\`o Tamagnone, Benjamin Minixhofer, Ranjan Shrestha,
Ximena Contla, Ewan Oglethorpe, Navid Rekabsaz
- Abstract要約: HumSetは、人道的応答コミュニティの専門家によって注釈された人道的応答文書の新しい多言語データセットである。
このデータセットは3つの言語(英語、フランス語、スペイン語)で文書を提供し、2018年から2021年までのさまざまな人道的危機をカバーしている。
HumSetはまた、新規で挑戦的なエントリ抽出とマルチラベルエントリ分類タスクも提供する。
- 参考スコア(独自算出の注目度): 5.057850174013127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Timely and effective response to humanitarian crises requires quick and
accurate analysis of large amounts of text data - a process that can highly
benefit from expert - assisted NLP systems trained on validated and annotated
data in the humanitarian response domain. To enable creation of such NLP
systems, we introduce and release HumSet, a novel and rich multilingual dataset
of humanitarian response documents annotated by experts in the humanitarian
response community. The dataset provides documents in three languages (English,
French, Spanish) and covers a variety of humanitarian crises from 2018 to 2021
across the globe. For each document, HumSet provides selected snippets
(entries) as well as assigned classes to each entry annotated using common
humanitarian information analysis frameworks. HumSet also provides novel and
challenging entry extraction and multi-label entry classification tasks. In
this paper, we take a first step towards approaching these tasks and conduct a
set of experiments on Pre-trained Language Models (PLM) to establish strong
baselines for future research in this domain. The dataset is available at The
dataset is available at https: //blog.thedeep.io/humset/.
- Abstract(参考訳): 人道的危機に対するタイムリーで効果的な対応には、大量のテキストデータの迅速かつ正確な分析が必要である。
このようなNLPシステムの構築を可能にするため,ヒュームセット (HumSet) は人道支援コミュニティの専門家が注釈した人道対応文書の多言語データセットである。
このデータセットは3つの言語(英語、フランス語、スペイン語)で文書を提供し、2018年から2021年までのさまざまな人道的危機をカバーしている。
それぞれのドキュメントに対して、humsetは選択されたスニペット(エントリ)と、共通の人道的情報分析フレームワークを使用してアノテートされた各エントリに割り当てられたクラスを提供する。
HumSetはまた、新規で挑戦的なエントリ抽出とマルチラベルエントリ分類タスクも提供する。
本稿では,これらの課題にアプローチするための第一歩として,事前学習言語モデル(PLM)の一連の実験を行い,今後の研究の基盤を固める。
データセットは、 https: //blog.thedeep.io/humset/で利用可能である。
関連論文リスト
- Capturing research literature attitude towards Sustainable Development Goals: an LLM-based topic modeling approach [0.7806050661713976]
持続可能な開発目標は2015年に国連によって策定され、2030年までにこれらの世界的な課題に対処した。
自然言語処理技術は、研究文献の中のSDGに関する議論を明らかにするのに役立つ。
我々は,Scopusデータベースからコンテンツを取り出し,SDGの5つのグループ専用のデータセットを作成する,完全に自動化されたパイプラインを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:37:23Z) - HumVI: A Multilingual Dataset for Detecting Violent Incidents Impacting Humanitarian Aid [6.0520837495927315]
HumVIは、3つの言語(英語、フランス語、アラビア語)のニュース記事を含むデータセットで、それらが影響する人道セクターによって分類された暴力的な事件の事例を含む。
データセットのベンチマークを提供し、データ拡張やマスク損失など、さまざまなディープラーニングアーキテクチャとテクニックを活用しています。
論文 参考訳(メタデータ) (2024-10-08T21:08:13Z) - HR-MultiWOZ: A Task Oriented Dialogue (TOD) Dataset for HR LLM Agent [6.764665650605542]
10のHRドメインにまたがる550の会話の完全なラベル付きデータセットであるHR-Multiwozを紹介した。
NLP研究のためのHRドメインにおける最初のラベル付きオープンソースの会話データセットである。
データ解析と人的評価とともに、データ生成手順の詳細なレシピを提供する。
論文 参考訳(メタデータ) (2024-02-01T21:10:44Z) - U-DIADS-Bib: a full and few-shot pixel-precise dataset for document
layout analysis of ancient manuscripts [9.76730765089929]
U-DIADS-Bibは、コンピュータビジョンと人文科学の分野の専門家の密接なコラボレーションのために開発された、新しい、ピクセル精度、非重複性、ノイズレス文書レイアウト分析データセットである。
そこで我々は,手動アノテーションの時間的負担を軽減するために,新しい,コンピュータ支援型セグメンテーションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-16T15:11:18Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - HumanBench: Towards General Human-centric Perception with Projector
Assisted Pretraining [75.1086193340286]
汎用的な人中心下流作業のための一般的な事前訓練モデルを持つことが望ましい。
本研究では,既存のデータセットをベースとしたtextbfHumanBench を提案する。
我々のPATHは、17の下流データセットと他の2つのデータセットの中間結果に対して、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2023-03-10T02:57:07Z) - Multi-CPR: A Multi Domain Chinese Dataset for Passage Retrieval [19.000263567641817]
経路検索のための新しい多領域中国語データセット(Multi-CPR)を提案する。
データセットはEコマース、エンターテイメントビデオ、メディカルを含む3つの異なるドメインから収集される。
一般ドメインからのデータセットでトレーニングされた検索モデルの性能は、特定のドメインで必然的に低下する。
論文 参考訳(メタデータ) (2022-03-07T13:20:46Z) - Addressing Issues of Cross-Linguality in Open-Retrieval Question
Answering Systems For Emergent Domains [67.99403521976058]
新型コロナウイルスの緊急ドメインに対する言語横断的オープン検索型質問応答システムについて紹介する。
本システムでは,検索した文書の信頼性を確保するために,学術論文のコーパスを採用している。
深いセマンティック・レトリバーは、我々の英語からすべてのデータに対するトレーニングの恩恵が大きく、言語横断環境ではBM25ベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-01-26T19:27:32Z) - FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine
Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。
FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。
この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文 参考訳(メタデータ) (2020-12-31T17:15:09Z) - Scaling Systematic Literature Reviews with Machine Learning Pipelines [57.82662094602138]
体系的なレビューは、科学的文書からデータを抽出する。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-09T16:19:42Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。