論文の概要: A Guide to Misinformation Detection Datasets
- arxiv url: http://arxiv.org/abs/2411.05060v1
- Date: Thu, 07 Nov 2024 18:47:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:55:52.362261
- Title: A Guide to Misinformation Detection Datasets
- Title(参考訳): 誤情報検出データセットの案内
- Authors: Camille Thibault, Gabrielle Peloquin-Skulski, Jacob-Junqi Tian, Florence Laflamme, Yuxiang Guan, Reihaneh Rabbany, Jean-François Godbout, Kellin Pelrine,
- Abstract要約: このガイドは、高品質なデータを取得し、より効果的な評価を行うためのロードマップを提供することを目的としている。
すべてのデータセットやその他のアーティファクトはhttps://misinfo-datasets.complexdatalab.com/.comで入手できる。
- 参考スコア(独自算出の注目度): 5.673951146506489
- License:
- Abstract: Misinformation is a complex societal issue, and mitigating solutions are difficult to create due to data deficiencies. To address this problem, we have curated the largest collection of (mis)information datasets in the literature, totaling 75. From these, we evaluated the quality of all of the 36 datasets that consist of statements or claims. We assess these datasets to identify those with solid foundations for empirical work and those with flaws that could result in misleading and non-generalizable results, such as insufficient label quality, spurious correlations, or political bias. We further provide state-of-the-art baselines on all these datasets, but show that regardless of label quality, categorical labels may no longer give an accurate evaluation of detection model performance. We discuss alternatives to mitigate this problem. Overall, this guide aims to provide a roadmap for obtaining higher quality data and conducting more effective evaluations, ultimately improving research in misinformation detection. All datasets and other artifacts are available at https://misinfo-datasets.complexdatalab.com/.
- Abstract(参考訳): 誤報は複雑な社会問題であり、データ不足による緩和ソリューションの作成は困難である。
この問題に対処するため,文献で最大の(ミス)情報データセットを収集し,75。
これらの結果から,文やクレームからなる36のデータセットの質を評価した。
これらのデータセットを評価して、経験的作業のためのしっかりとした基礎を持つものや、ラベル品質の不足、素早い相関、政治的偏見などの誤解を招く可能性のある欠陥のあるものを特定する。
さらに,これらすべてのデータセットに対して最先端のベースラインを提供するが,ラベルの品質に関わらず,分類ラベルが検出モデルの性能を正確に評価することができないことを示す。
この問題を緩和するための代替案について議論する。
全体として、このガイドは、高品質なデータを取得し、より効果的な評価を行うためのロードマップを提供することを目的としており、最終的には誤情報検出の研究を改善することを目的としている。
すべてのデータセットやその他のアーティファクトはhttps://misinfo-datasets.complexdatalab.com/.comで入手できる。
関連論文リスト
- Attribute-Based Semantic Type Detection and Data Quality Assessment [0.5735035463793008]
本研究では,属性に基づくセマンティック型検出とデータ品質評価を中心とした,革新的な手法を提案する。
属性ラベル内の意味情報とルールベースの分析と包括的フォーマット・省略辞書を組み合わせることで,本手法は実用的な意味型分類システムを導入する。
最先端のセマンティック型検出システムであるSherlockとの比較分析により,本手法の利点が示された。
論文 参考訳(メタデータ) (2024-10-04T09:22:44Z) - Lazy Data Practices Harm Fairness Research [49.02318458244464]
本稿では,公正な機械学習データセットを包括的に分析し,不反射的手法がアルゴリズム的公正度発見の到達度と信頼性をいかに妨げているかを示す。
本分析では,(1)データと評価における特定の保護属性の表現のテクスブフラック,(2)データ前処理におけるマイノリティの広汎なテキストbf,(3)フェアネス研究の一般化を脅かすテキストbfopaqueデータ処理の3つの分野について検討した。
この研究は、公正なMLにおけるデータプラクティスの批判的な再評価の必要性を強調し、データセットのソーシングと使用の両方を改善するための指針を提供する。
論文 参考訳(メタデータ) (2024-04-26T09:51:24Z) - Investigating the Quality of DermaMNIST and Fitzpatrick17k
Dermatological Image Datasets [19.128392861461297]
DermaMNIST と Fitzpatrick17k という2つの一般的な皮膚画像データセットの精査分析を行った。
データ品質の問題を明らかにし、これらの問題がベンチマーク結果に与える影響を測定し、データセットの修正を提案する。
論文 参考訳(メタデータ) (2024-01-25T20:29:01Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - A Survey of Dataset Refinement for Problems in Computer Vision Datasets [11.45536223418548]
大規模データセットはコンピュータビジョンの進歩に重要な役割を果たしてきた。
クラス不均衡、ノイズの多いラベル、データセットバイアス、高いリソースコストといった問題に悩まされることが多い。
データセット問題を解決するために、様々なデータ中心のソリューションが提案されている。
データセットを再構成することで、データセットの品質が向上します。
論文 参考訳(メタデータ) (2022-10-21T03:58:43Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Assessing the Quality of the Datasets by Identifying Mislabeled Samples [14.881597737762316]
本稿では,各データ点の品質を測る指標として,新しい統計値(ノイズスコア)を提案する。
本研究では,データ品質管理型変分オートエンコーダ(AQUAVS)の推論ネットワークから導出される表現を用いる。
我々は、MNIST、FashionMNIST、CIFAR10/100データセットを破損させることにより、提案した統計データを検証した。
論文 参考訳(メタデータ) (2021-09-10T17:14:09Z) - Statistical Learning to Operationalize a Domain Agnostic Data Quality
Scoring [8.864453148536061]
この研究は、DQスコア、レポート、ラベルを提供するために、受信したデータセットとメタデータを収集する自動化プラットフォームを提供する。
この研究の結果は、データサイエンティストにとって有用であり、この品質ラベルの価値は、それぞれの実践的応用のためにデータをデプロイする前に信頼を喚起する。
論文 参考訳(メタデータ) (2021-08-16T12:20:57Z) - Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。
クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。
将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文 参考訳(メタデータ) (2021-04-20T17:16:41Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - GraspNet: A Large-Scale Clustered and Densely Annotated Dataset for
Object Grasping [49.777649953381676]
我々は,統合評価システムを用いた大規模グリップポーズ検出データセットに貢献する。
データセットには87,040枚のRGBD画像と3億7000万枚以上のグリップポーズが含まれている。
論文 参考訳(メタデータ) (2019-12-31T18:15:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。