論文の概要: Scaling Crowdsourced Election Monitoring: Construction and Evaluation of Classification Models for Multilingual and Cross-Domain Classification Settings
- arxiv url: http://arxiv.org/abs/2503.03582v1
- Date: Wed, 05 Mar 2025 15:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:52:36.235063
- Title: Scaling Crowdsourced Election Monitoring: Construction and Evaluation of Classification Models for Multilingual and Cross-Domain Classification Settings
- Title(参考訳): クラウドソーシングによる選挙監視のスケールアップ:多言語・複数ドメイン分類設定のための分類モデルの構築と評価
- Authors: Jabez Magomere, Scott Hale,
- Abstract要約: 本稿では,まず情報的報告を識別し,それらを異なる情報タイプに分類する2段階の分類手法を提案する。
我々はXLM-RoBERTaのような多言語変換モデルとSBERTのような多言語埋め込みを用いた分類実験を行う。
その結果,F1スコアは0ショットで59%,少数ショットで63%であった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The adoption of crowdsourced election monitoring as a complementary alternative to traditional election monitoring is on the rise. Yet, its reliance on digital response volunteers to manually process incoming election reports poses a significant scaling bottleneck. In this paper, we address the challenge of scaling crowdsourced election monitoring by advancing the task of automated classification of crowdsourced election reports to multilingual and cross-domain classification settings. We propose a two-step classification approach of first identifying informative reports and then categorising them into distinct information types. We conduct classification experiments using multilingual transformer models such as XLM-RoBERTa and multilingual embeddings such as SBERT, augmented with linguistically motivated features. Our approach achieves F1-Scores of 77\% for informativeness detection and 75\% for information type classification. We conduct cross-domain experiments, applying models trained in a source electoral domain to a new target electoral domain in zero-shot and few-shot classification settings. Our results show promising potential for model transfer across electoral domains, with F1-Scores of 59\% in zero-shot and 63\% in few-shot settings. However, our analysis also reveals a performance bias in detecting informative English reports over Swahili, likely due to imbalances in the training data, indicating a need for caution when deploying classification models in real-world election scenarios.
- Abstract(参考訳): 従来の選挙監視を補完するものとして、クラウドソースによる選挙監視が採用されつつある。
しかし、選挙報告を手動で処理するデジタル対応ボランティアへの依存は、スケーリングのボトルネックを著しく引き起こす。
本稿では,クラウドソーシングによる選挙報告の自動分類を多言語・クロスドメインの分類設定に進めることにより,クラウドソーシングによる選挙監視のスケールアップという課題に対処する。
本稿では,まず情報的報告を識別し,それらを異なる情報タイプに分類する2段階の分類手法を提案する。
我々はXLM-RoBERTaのような多言語トランスフォーマーモデルとSBERTのような多言語埋め込みを用いた分類実験を行い、言語的に動機付けされた特徴を付加した。
本手法は,情報量検出のためのF1スコアを77 %,情報型分類のための75 %を達成する。
我々は、ゼロショットと少数ショットの分類設定において、ソースの選挙ドメインで訓練されたモデルを新しいターゲットの選挙ドメインに適用するクロスドメイン実験を行う。
その結果,F1スコアはゼロショットでは59倍,少数ショットでは63倍の確率で,選挙ドメイン間のモデル転送が期待できる可能性が示唆された。
しかし,本分析の結果から,スワヒリ島におけるインフォメーション・インフォメーション・イングリッシュ・レポートの検出には,トレーニングデータの不均衡が原因で,実世界の選挙シナリオに分類モデルを配置する際の注意が必要であることが示唆された。
関連論文リスト
- ElectionSim: Massive Population Election Simulation Powered by Large Language Model Driven Agents [70.17229548653852]
我々は,大規模言語モデルに基づく革新的な選挙シミュレーションフレームワークであるElectronSimを紹介する。
ソーシャルメディアプラットフォームからサンプリングした100万レベルの投票者プールを提示し、正確な個人シミュレーションを支援する。
PPEは、米国大統領選挙シナリオ下での我々の枠組みの性能を評価するための、世論調査に基づく大統領選挙ベンチマークである。
論文 参考訳(メタデータ) (2024-10-28T05:25:50Z) - Automated stance detection in complex topics and small languages: the
challenging case of immigration in polarizing news media [0.0]
本稿では,大規模言語モデルによる自動姿勢検出への適用性について検討する。
形態学的に複雑で、低資源の言語であり、社会文化的に複雑な話題である移民を含んでいる。
このケースでアプローチがうまくいけば、要求の少ないシナリオでも同じように、あるいはより良く実行されることが期待できる。
論文 参考訳(メタデータ) (2023-05-22T13:56:35Z) - Enhancing Pashto Text Classification using Language Processing
Techniques for Single And Multi-Label Analysis [0.0]
本研究では,Pashtoテキストの自動分類システムの構築を目的とする。
平均テスト精度は94%だった。
DistilBERTのような事前訓練された言語表現モデルの使用は、有望な結果を示した。
論文 参考訳(メタデータ) (2023-05-04T23:11:31Z) - Explaining Cross-Domain Recognition with Interpretable Deep Classifier [100.63114424262234]
解釈可能なDeep(IDC)は、ターゲットサンプルの最も近いソースサンプルを、分類器が決定を下す証拠として学習する。
我々のIDCは、精度の劣化がほとんどなく、最適なリジェクションオプションの分類を効果的に調整する、より説明可能なモデルに導かれる。
論文 参考訳(メタデータ) (2022-11-15T15:58:56Z) - A Hierarchical Model for Spoken Language Recognition [29.948719321162883]
音声言語認識(SLR)とは、音声サンプルに含まれる言語を決定するための自動処理である。
本稿では,2つのPLDAモデルを訓練し,その1つは高関係言語クラスタのスコアを生成し,もう1つは各クラスタに条件付きスコアを生成するという新しい階層的アプローチを提案する。
この階層的アプローチは、高度に関連性の高い言語を検出する非階層的アプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-01-04T22:10:36Z) - Genre as Weak Supervision for Cross-lingual Dependency Parsing [18.755176247223616]
ジャンルのラベルは頻繁に入手できるが、言語間の設定ではほとんど探索されていない。
木バンクレベルのジャンル情報をよりきめ細かい文レベルに投影する。
12の低リソース言語ツリーバンク(うち6つはテストのみ)では、ジャンル固有の手法が競争のベースラインを大幅に上回っています。
論文 参考訳(メタデータ) (2021-09-10T08:24:54Z) - Instance Level Affinity-Based Transfer for Unsupervised Domain
Adaptation [74.71931918541748]
ILA-DAと呼ばれる適応中のソースからターゲットへの転送に対するインスタンス親和性に基づく基準を提案する。
まず、ソースとターゲットをまたいだ類似および異種サンプルを抽出し、マルチサンプルのコントラスト損失を利用してドメインアライメントプロセスを駆動する信頼性が高く効率的な手法を提案する。
ILA-DAの有効性は、様々なベンチマークデータセットに対する一般的なドメイン適応手法よりも精度が一貫した改善を観察することによって検証する。
論文 参考訳(メタデータ) (2021-04-03T01:33:14Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z) - Joint Visual and Temporal Consistency for Unsupervised Domain Adaptive
Person Re-Identification [64.37745443119942]
本稿では,局所的なワンホット分類とグローバルなマルチクラス分類を組み合わせることで,視覚的・時間的整合性を両立させる。
3つの大規模ReIDデータセットの実験結果は、教師なしと教師なしの両方のドメイン適応型ReIDタスクにおいて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2020-07-21T14:31:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。