論文の概要: HumVI: A Multilingual Dataset for Detecting Violent Incidents Impacting Humanitarian Aid
- arxiv url: http://arxiv.org/abs/2410.06370v1
- Date: Tue, 15 Oct 2024 20:23:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 06:09:19.662939
- Title: HumVI: A Multilingual Dataset for Detecting Violent Incidents Impacting Humanitarian Aid
- Title(参考訳): HumVI:人道支援に影響を及ぼす暴力行為を検知する多言語データセット
- Authors: Hemank Lamba, Anton Abilov, Ke Zhang, Elizabeth M. Olson, Henry k. Dambanemuya, João c. Bárcia, David S. Batista, Christina Wille, Aoife Cahill, Joel Tetreault, Alex Jaimes,
- Abstract要約: HumVIは、3つの言語(英語、フランス語、アラビア語)のニュース記事を含むデータセットで、それらが影響する人道セクターによって分類された暴力的な事件の事例を含む。
データセットのベンチマークを提供し、データ拡張やマスク損失など、さまざまなディープラーニングアーキテクチャとテクニックを活用しています。
- 参考スコア(独自算出の注目度): 6.0520837495927315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humanitarian organizations can enhance their effectiveness by analyzing data to discover trends, gather aggregated insights, manage their security risks, support decision-making, and inform advocacy and funding proposals. However, data about violent incidents with direct impact and relevance for humanitarian aid operations is not readily available. An automatic data collection and NLP-backed classification framework aligned with humanitarian perspectives can help bridge this gap. In this paper, we present HumVI - a dataset comprising news articles in three languages (English, French, Arabic) containing instances of different types of violent incidents categorized by the humanitarian sector they impact, e.g., aid security, education, food security, health, and protection. Reliable labels were obtained for the dataset by partnering with a data-backed humanitarian organization, Insecurity Insight. We provide multiple benchmarks for the dataset, employing various deep learning architectures and techniques, including data augmentation and mask loss, to address different task-related challenges, e.g., domain expansion. The dataset is publicly available at https://github.com/dataminr-ai/humvi-dataset.
- Abstract(参考訳): 人道的な組織は、トレンドを発見するためにデータを分析し、集約された洞察を集め、セキュリティリスクを管理し、意思決定をサポートし、擁護と資金提供の提案を通知することで、その効果を高めることができる。
しかし、人道支援活動の直接的な影響と関連性を伴う暴力事件に関するデータは、すぐには入手できない。
人道的な視点に沿った自動データ収集とNLP支援の分類フレームワークは、このギャップを埋めるのに役立つ。
本稿では,HumVIという3つの言語(英語,フランス語,アラビア語)のニュース記事からなるデータセットについて紹介する。
信頼性の高いラベルは、データ支援の人道組織であるInsecurity Insightと提携して取得された。
データセットに複数のベンチマークを提供し、データ拡張やマスク損失など、さまざまなディープラーニングアーキテクチャとテクニックを活用して、ドメイン拡張など、さまざまなタスク関連の課題に対処しています。
データセットはhttps://github.com/dataminr-ai/humvi-datasetで公開されている。
関連論文リスト
- Model Inversion Attacks: A Survey of Approaches and Countermeasures [59.986922963781]
近年、新しいタイプのプライバシ攻撃であるモデル反転攻撃(MIA)は、トレーニングのためのプライベートデータの機密性を抽出することを目的としている。
この重要性にもかかわらず、総合的な概要とMIAに関する深い洞察を提供する体系的な研究が欠如している。
本調査は、攻撃と防御の両方において、最新のMIA手法を要約することを目的としている。
論文 参考訳(メタデータ) (2024-11-15T08:09:28Z) - Beyond the Safety Bundle: Auditing the Helpful and Harmless Dataset [4.522849055040843]
この研究は、Helpful and Harmless データセットを Anthropic で監査した。
本研究は,大規模言語モデルにおける安全性軽減のための,よりニュアンスで文脈に敏感なアプローチの必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-11-12T23:43:20Z) - A Social Context-aware Graph-based Multimodal Attentive Learning Framework for Disaster Content Classification during Emergencies [0.0]
CrisisSpotは、テキストと視覚の複雑な関係をキャプチャする手法である。
IDEAは、データ内の調和とコントラストの両方のパターンをキャプチャして、マルチモーダルインタラクションを強化する。
CrisisSpotは最先端の手法と比較してF1スコアの平均9.45%と5.01%の上昇を達成した。
論文 参考訳(メタデータ) (2024-10-11T13:51:46Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - CrisisSense-LLM: Instruction Fine-Tuned Large Language Model for Multi-label Social Media Text Classification in Disaster Informatics [49.2719253711215]
本研究では,事前学習型大規模言語モデル(LLM)の強化による災害テキスト分類への新たなアプローチを提案する。
本手法では,災害関連ツイートから包括的インストラクションデータセットを作成し,それをオープンソース LLM の微調整に用いる。
この微調整モデルでは,災害関連情報の種類,情報化,人的援助の関与など,複数の側面を同時に分類することができる。
論文 参考訳(メタデータ) (2024-06-16T23:01:10Z) - A New Task and Dataset on Detecting Attacks on Human Rights Defenders [68.45906430323156]
我々は,500のオンラインニュース記事にクラウドソーシングされたアノテーションからなる人権擁護者に対する攻撃(HRDsAttack)を検出するための新しいデータセットを提案する。
アノテーションには、攻撃のタイプと場所に関する詳細な情報と、被害者に関する情報が含まれている。
いくつかのサブタスク上でベースラインモデルをトレーニングし,評価し,注釈付き特性を予測することで,データセットの有用性を実証する。
論文 参考訳(メタデータ) (2023-06-30T14:20:06Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - HumSet: Dataset of Multilingual Information Extraction and
Classification for Humanitarian Crisis Response [5.057850174013127]
HumSetは、人道的応答コミュニティの専門家によって注釈された人道的応答文書の新しい多言語データセットである。
このデータセットは3つの言語(英語、フランス語、スペイン語)で文書を提供し、2018年から2021年までのさまざまな人道的危機をカバーしている。
HumSetはまた、新規で挑戦的なエントリ抽出とマルチラベルエントリ分類タスクも提供する。
論文 参考訳(メタデータ) (2022-10-10T11:28:07Z) - Data Poisoning Attacks and Defenses to Crowdsourcing Systems [26.147716118854614]
クラウドソーシングはデータ中毒攻撃に対して脆弱であることを示す。
悪意のあるクライアントは、集約されたデータを壊すために注意深く作られたデータを提供します。
悪質なクライアントの影響を減らすため、2つの防御策を提案する。
論文 参考訳(メタデータ) (2021-02-18T06:03:48Z) - Dataset Security for Machine Learning: Data Poisoning, Backdoor Attacks,
and Defenses [150.64470864162556]
この作業は体系的に分類され、幅広いデータセット脆弱性とエクスプロイトを議論する。
様々な毒とバックドアの脅威モデルとそれらの関係を記述することに加えて,それらの統一分類法を展開する。
論文 参考訳(メタデータ) (2020-12-18T22:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。