論文の概要: Uchaguzi-2022: A Dataset of Citizen Reports on the 2022 Kenyan Election
- arxiv url: http://arxiv.org/abs/2412.13098v1
- Date: Tue, 17 Dec 2024 17:08:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:57:58.134119
- Title: Uchaguzi-2022: A Dataset of Citizen Reports on the 2022 Kenyan Election
- Title(参考訳): Uchaguzi-2022:2022年のケニア大統領選挙に関する市民報告のデータセット
- Authors: Roberto Mondini, Neema Kotonya, Robert L. Logan IV, Elizabeth M Olson, Angela Oduor Lungati, Daniel Duke Odongo, Tim Ombasa, Hemank Lamba, Aoife Cahill, Joel R. Tetreault, Alejandro Jaimes,
- Abstract要約: Uchaguzi-2022は、2022年のケニア総選挙に関する14kの分類と地理タグ付き市民報告のデータセットである。
このデータセットを使用して、言語モデルがレポートの分類とジオタグ化に役立てられるかどうかを調査し、AI for Social Goodスペースにおけるその可能性を強調します。
- 参考スコア(独自算出の注目度): 49.35115948941981
- License:
- Abstract: Online reporting platforms have enabled citizens around the world to collectively share their opinions and report in real time on events impacting their local communities. Systematically organizing (e.g., categorizing by attributes) and geotagging large amounts of crowdsourced information is crucial to ensuring that accurate and meaningful insights can be drawn from this data and used by policy makers to bring about positive change. These tasks, however, typically require extensive manual annotation efforts. In this paper we present Uchaguzi-2022, a dataset of 14k categorized and geotagged citizen reports related to the 2022 Kenyan General Election containing mentions of election-related issues such as official misconduct, vote count irregularities, and acts of violence. We use this dataset to investigate whether language models can assist in scalably categorizing and geotagging reports, thus highlighting its potential application in the AI for Social Good space.
- Abstract(参考訳): オンラインレポートプラットフォームは、世界中の市民が意見を共有し、地域社会に影響を及ぼす出来事をリアルタイムで報告することを可能にする。
体系的な組織化(属性による分類)と大量のクラウドソース情報のジオタグ化は、このデータから正確で有意義な洞察を引き出すことができ、政策立案者によってポジティブな変化をもたらすために使用されることを保証するために不可欠である。
しかしながら、これらのタスクは通常、広範囲な手動のアノテーション作業を必要とする。
本稿では、2022年ケニア総選挙に関する14kの市民報告を分類・地理タグ付けしたデータセットであるUchaguzi-2022について、公式な不正行為、投票数不規則、暴力行為などの選挙関連問題について言及する。
このデータセットを使用して、言語モデルがレポートの分類とジオタグ化に役立てられるかどうかを調査し、AI for Social Goodスペースにおけるその可能性を強調します。
関連論文リスト
- Analyzing the Impact of Fake News on the Anticipated Outcome of the 2024
Election Ahead of Time [7.1970442944315245]
フェイクニュースに関する認識と研究の高まりにもかかわらず、北米の政治演説の中で人種的スラリーや偏見を特にターゲットとするデータセットは、依然として大きな必要性がある。
本研究では、これらの誤情報の重要な側面を照らす包括的データセットを紹介する。
論文 参考訳(メタデータ) (2023-12-01T20:14:16Z) - Leveraging Large Language Models for Topic Classification in the Domain
of Public Affairs [65.9077733300329]
大規模言語モデル (LLM) は公務員文書の分析を大幅に強化する可能性を秘めている。
LLMは、公共の分野など、ドメイン固有のドキュメントを処理するのに非常に役立ちます。
論文 参考訳(メタデータ) (2023-06-05T13:35:01Z) - Lessons Learned from a Citizen Science Project for Natural Language
Processing [53.48988266271858]
市民科学はクラウドソーシングの代替であり、NLPの文脈では比較的研究されていない。
我々は、既存のクラウドソースデータセットの一部を注釈付けすることで、NLPの市民科学における様々なボランティアグループへの参加について探索的研究を行う。
この結果から,高品質なアノテーションが得られ,モチベーションの高いボランティアを惹きつけるだけでなく,スケーラビリティや時間的関与,法的・倫理的問題といった要因も考慮する必要があることが示唆された。
論文 参考訳(メタデータ) (2023-04-25T14:08:53Z) - Design and analysis of tweet-based election models for the 2021 Mexican
legislative election [55.41644538483948]
選挙日前の6ヶ月の間に、1500万件の選挙関連ツイートのデータセットを使用します。
地理的属性を持つデータを用いたモデルが従来のポーリング法よりも精度と精度で選挙結果を決定することがわかった。
論文 参考訳(メタデータ) (2023-01-02T12:40:05Z) - Fast Few shot Self-attentive Semi-supervised Political Inclination
Prediction [12.472629584751509]
政策立案者やジャーナリストにとって、特定の場所にいる人々の政治的傾向を理解するために、ソーシャルメディア上でオンライン世論調査を作成することは、今やますます一般的になっている。
我々は、その目的をさらに進めるために、政治的傾き検出のための自己注意型半教師付きフレームワークを導入する。
資源制約のある設定でも,モデルは非常に効率的であることがわかった。
論文 参考訳(メタデータ) (2022-09-21T12:07:16Z) - FacTeR-Check: Semi-automated fact-checking through Semantic Similarity
and Natural Language Inference [61.068947982746224]
FacTeR-Checkは、ファクトチェックされた情報の検索、未確認のクレームの検証、ソーシャルメディア上での危険な情報の追跡を可能にする。
このアーキテクチャは、NLI19-SPと呼ばれる新しいデータセットを使って検証されている。
この結果から,各ベンチマークにおける最先端性能と,61種類のホアックスの時間経過に伴う進化の有用な解析結果が得られた。
論文 参考訳(メタデータ) (2021-10-27T15:44:54Z) - TBCOV: Two Billion Multilingual COVID-19 Tweets with Sentiment, Entity,
Geo, and Gender Labels [5.267993069044648]
この研究は、新型コロナウイルス(COVID-19)のパンデミックに関連する20億以上の多言語ツイートを1年以上にわたって収集した大規模なTwitterデータセットTBCOVを提示する。
いくつかの最先端のディープラーニングモデルは、感情ラベル、名前付きエンティティ、人物の言及、組織、場所、ユーザータイプ、性別情報など、重要な属性でデータを強化するために使用される。
我々の感情と傾向分析は興味深い洞察を示し、TBCOVが重要なトピックを幅広くカバーしていることを確認する。
論文 参考訳(メタデータ) (2021-10-04T06:17:12Z) - Leveraging Administrative Data for Bias Audits: Assessing Disparate
Coverage with Mobility Data for COVID-19 Policy [61.60099467888073]
管理データのリンクによって,バイアスに対するモビリティデータの監査が可能かを示す。
我々は、高齢者や非白人の有権者が移動データによって捕えられる可能性が低いことを示した。
このような移動データに基づく公衆衛生資源の配分は、高リスク高齢者や少数民族に不当に害を与える可能性があることを示す。
論文 参考訳(メタデータ) (2020-11-14T02:04:14Z) - CovidNet: To Bring Data Transparency in the Era of COVID-19 [9.808021836153712]
本稿では,大規模流行データセットに関連付けられた新型コロナウイルス追跡プロジェクトであるCovidNetについて述べる。
CovidNetは、世界27か国から4,124のサブディビジョンのリアルタイムグローバルケース情報を提供する唯一のプラットフォームである。
データセットの正確性と鮮度は、自発的なチームワーク、クラウドソーシングチャネル、自動データパイプラインによる苦労の結果です。
論文 参考訳(メタデータ) (2020-05-22T00:05:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。