論文の概要: Simulation, Modelling and Classification of Wiki Contributors: Spotting The Good, The Bad, and The Ugly
- arxiv url: http://arxiv.org/abs/2405.18845v1
- Date: Wed, 29 May 2024 07:56:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 18:19:11.006802
- Title: Simulation, Modelling and Classification of Wiki Contributors: Spotting The Good, The Bad, and The Ugly
- Title(参考訳): Wikiコントリビュータのシミュレーション、モデリング、分類:「善」、「悪」、そして「悪」
- Authors: Silvia García Méndez, Fátima Leal, Benedita Malheiro, Juan Carlos Burguillo Rial, Bruno Veloso, Adriana E. Chis, Horacio González Vélez,
- Abstract要約: 本稿では,人間と非人間(ロボット)のコントリビュータを自動的に識別するためのシミュレーション,モデリング,分類手法を提案する。
私たちは、テストベッドとしてWikiVoyageという、世界中の無料のウィキ旅行ガイドを一般大衆から寄付を受けられるようにしています。
以上の結果から,本手法は良性ボットと良性ボットと,最大92%の分類精度を持つヒトコントリビュータを区別できることがわかった。
- 参考スコア(独自算出の注目度): 3.206001698115526
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Data crowdsourcing is a data acquisition process where groups of voluntary contributors feed platforms with highly relevant data ranging from news, comments, and media to knowledge and classifications. It typically processes user-generated data streams to provide and refine popular services such as wikis, collaborative maps, e-commerce sites, and social networks. Nevertheless, this modus operandi raises severe concerns regarding ill-intentioned data manipulation in adversarial environments. This paper presents a simulation, modelling, and classification approach to automatically identify human and non-human (bots) as well as benign and malign contributors by using data fabrication to balance classes within experimental data sets, data stream modelling to build and update contributor profiles and, finally, autonomic data stream classification. By employing WikiVoyage - a free worldwide wiki travel guide open to contribution from the general public - as a testbed, our approach proves to significantly boost the confidence and quality of the classifier by using a class-balanced data stream, comprising both real and synthetic data. Our empirical results show that the proposed method distinguishes between benign and malign bots as well as human contributors with a classification accuracy of up to 92 %.
- Abstract(参考訳): データクラウドソーシング(Data crowdsourcing)は、自発的なコントリビュータのグループが、ニュース、コメント、メディアから知識、分類に至るまで、非常に関連性の高いデータをプラットフォームに提供する、データ取得プロセスである。
通常、ユーザ生成データストリームを処理して、wiki、コラボレーティブマップ、eコマースサイト、ソーシャルネットワークなどのポピュラーなサービスを提供し、洗練する。
しかしながら、このモナス・オペランディは、敵対的環境における意図しないデータ操作に関する深刻な懸念を提起する。
本稿では,人間と非人間(ロボット)を自動的に識別するためのシミュレーション,モデリング,分類手法を提案する。
WikiVoyageをテストベッドとして利用することで,実データと合成データの両方からなるクラスバランスのデータストリームを使用することで,分類者の信頼性と品質を大幅に向上させることが証明された。
以上の結果から,本手法は良性ボットと良性ボットと,最大92%の分類精度を持つヒトコントリビュータを区別できることがわかった。
関連論文リスト
- Federated Impression for Learning with Distributed Heterogeneous Data [19.50235109938016]
フェデレートラーニング(FL)は、データを共有することなく、クライアント間で分散データセットから学習できるパラダイムを提供する。
FLでは、データ収集プロトコルや患者人口の多様さにより、異なる保健所のデータに準最適収束が一般的である。
我々は,グローバル情報を表す合成データをフェデレーションとして復元することで,破滅的な忘れを緩和するFedImpresを提案する。
論文 参考訳(メタデータ) (2024-09-11T15:37:52Z) - A Comprehensive Survey on Data Augmentation [55.355273602421384]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。
既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。
本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文 参考訳(メタデータ) (2024-05-15T11:58:08Z) - Data Quality in Crowdsourcing and Spamming Behavior Detection [2.6481162211614118]
本稿では,データ品質を評価し,分散分解によるスパムの脅威を検出するための体系的手法を提案する。
データ一貫性を評価するためにスパマーインデックスが提案され、群衆労働者の信頼性を測定するために2つの指標が開発された。
論文 参考訳(メタデータ) (2024-04-04T02:21:38Z) - Demographic Parity: Mitigating Biases in Real-World Data [0.0]
分類ユーティリティを保ちながら不要なバイアスを除去することを保証する頑健な方法論を提案する。
我々のアプローチは、実世界のデータから導出することで、常にモデルに依存しない方法でこれを達成することができる。
論文 参考訳(メタデータ) (2023-09-27T11:47:05Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Classification of datasets with imputed missing values: does imputation
quality matter? [2.7646249774183]
不完全なデータセットでサンプルを分類するのは簡単ではない。
品質を評価するのによく使われる尺度がいかに欠陥があるかを実証する。
本稿では,データ全体の分布をいかに再現するかに焦点をあてた,新たな相違点のクラスを提案する。
論文 参考訳(メタデータ) (2022-06-16T22:58:03Z) - Learning Bias-Invariant Representation by Cross-Sample Mutual
Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。
相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。
我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T21:17:02Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。