論文の概要: A Guide to Misinformation Detection Data and Evaluation
- arxiv url: http://arxiv.org/abs/2411.05060v2
- Date: Wed, 19 Mar 2025 06:52:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:21:17.641889
- Title: A Guide to Misinformation Detection Data and Evaluation
- Title(参考訳): 誤情報検出データの案内と評価
- Authors: Camille Thibault, Jacob-Junqi Tian, Gabrielle Peloquin-Skulski, Taylor Lynn Curtis, James Zhou, Florence Laflamme, Yuxiang Guan, Reihaneh Rabbany, Jean-François Godbout, Kellin Pelrine,
- Abstract要約: 文献で最大の(ミス)情報データセットを収集し,75。
我々は,文やクレームからなる36のデータセットと,純粋に段落形式のデータからなる9つのデータセットの質を評価する。
このガイドは、高品質なデータとより良い基盤評価のためのロードマップを提供し、最終的には誤情報検出の研究を改善することを目的としている。
- 参考スコア(独自算出の注目度): 5.292221448832313
- License:
- Abstract: Misinformation is a complex societal issue, and mitigating solutions are difficult to create due to data deficiencies. To address this, we have curated the largest collection of (mis)information datasets in the literature, totaling 75. From these, we evaluated the quality of 36 datasets that consist of statements or claims, as well as the 9 datasets that consist of data in purely paragraph form. We assess these datasets to identify those with solid foundations for empirical work and those with flaws that could result in misleading and non-generalizable results, such as spurious correlations, or examples that are ambiguous or otherwise impossible to assess for veracity. We find the latter issue is particularly severe and affects most datasets in the literature. We further provide state-of-the-art baselines on all these datasets, but show that regardless of label quality, categorical labels may no longer give an accurate evaluation of detection model performance. Finally, we we propose and highlight Evaluation Quality Assessment (EQA) as a tool to guide the field toward systemic solutions rather than inadvertently propagating issues in evaluation. Overall, this guide aims to provide a roadmap for higher quality data and better grounded evaluations, ultimately improving research in misinformation detection. All datasets and other artifacts are available at misinfo-datasets.complexdatalab.com.
- Abstract(参考訳): 誤報は複雑な社会問題であり、データ不足による緩和ソリューションの作成は困難である。
これを解決するため、文献で最大の(ミス)情報データセットを収集し、合計75。
これらの結果から,文やクレームからなる36のデータセットと,純粋に段落形式のデータからなる9つのデータセットの質を評価した。
これらのデータセットを評価して、経験的作業のための確固たる基礎を持つものや、不確実で一般化不可能な結果をもたらす可能性のある欠陥のあるもの、例えば、急激な相関関係や、不明瞭で不確実な検証が不可能な例を特定する。
後者の問題は特に深刻であり、文献のほとんどのデータセットに影響を与える。
さらに,これらすべてのデータセットに対して最先端のベースラインを提供するが,ラベルの品質に関わらず,分類ラベルが検出モデルの性能を正確に評価することができないことを示す。
最後に,評価における問題を不注意に広めるのではなく,システムソリューションの分野を導くためのツールとして,評価品質評価(EQA)を提案し,強調する。
全体として、このガイドは、高品質なデータとより良い基礎的な評価のためのロードマップを提供し、最終的には誤情報検出の研究を改善することを目的としている。
すべてのデータセットやその他のアーティファクトは misinfo-datasets.complexdatalab.com で利用可能である。
関連論文リスト
- Attribute-Based Semantic Type Detection and Data Quality Assessment [0.5735035463793008]
本研究では,属性に基づくセマンティック型検出とデータ品質評価を中心とした,革新的な手法を提案する。
属性ラベル内の意味情報とルールベースの分析と包括的フォーマット・省略辞書を組み合わせることで,本手法は実用的な意味型分類システムを導入する。
最先端のセマンティック型検出システムであるSherlockとの比較分析により,本手法の利点が示された。
論文 参考訳(メタデータ) (2024-10-04T09:22:44Z) - Lazy Data Practices Harm Fairness Research [49.02318458244464]
本稿では,公正な機械学習データセットを包括的に分析し,不反射的手法がアルゴリズム的公正度発見の到達度と信頼性をいかに妨げているかを示す。
本分析では,(1)データと評価における特定の保護属性の表現のテクスブフラック,(2)データ前処理におけるマイノリティの広汎なテキストbf,(3)フェアネス研究の一般化を脅かすテキストbfopaqueデータ処理の3つの分野について検討した。
この研究は、公正なMLにおけるデータプラクティスの批判的な再評価の必要性を強調し、データセットのソーシングと使用の両方を改善するための指針を提供する。
論文 参考訳(メタデータ) (2024-04-26T09:51:24Z) - Investigating the Quality of DermaMNIST and Fitzpatrick17k Dermatological Image Datasets [17.01966057343415]
重複の有無、トレインテストのパーティション間のデータリーク、ラベルの誤り、明確に定義されたテストパーティションの欠如など、いくつかの要因がデータ品質に影響を与える可能性がある。
我々はDrmaMNISTのソースであるHAM10000とFitzpatrick17kの3つの一般的な皮膚画像データセットを綿密に分析する。
論文 参考訳(メタデータ) (2024-01-25T20:29:01Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - A Survey of Dataset Refinement for Problems in Computer Vision Datasets [11.45536223418548]
大規模データセットはコンピュータビジョンの進歩に重要な役割を果たしてきた。
クラス不均衡、ノイズの多いラベル、データセットバイアス、高いリソースコストといった問題に悩まされることが多い。
データセット問題を解決するために、様々なデータ中心のソリューションが提案されている。
データセットを再構成することで、データセットの品質が向上します。
論文 参考訳(メタデータ) (2022-10-21T03:58:43Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Assessing the Quality of the Datasets by Identifying Mislabeled Samples [14.881597737762316]
本稿では,各データ点の品質を測る指標として,新しい統計値(ノイズスコア)を提案する。
本研究では,データ品質管理型変分オートエンコーダ(AQUAVS)の推論ネットワークから導出される表現を用いる。
我々は、MNIST、FashionMNIST、CIFAR10/100データセットを破損させることにより、提案した統計データを検証した。
論文 参考訳(メタデータ) (2021-09-10T17:14:09Z) - Statistical Learning to Operationalize a Domain Agnostic Data Quality
Scoring [8.864453148536061]
この研究は、DQスコア、レポート、ラベルを提供するために、受信したデータセットとメタデータを収集する自動化プラットフォームを提供する。
この研究の結果は、データサイエンティストにとって有用であり、この品質ラベルの価値は、それぞれの実践的応用のためにデータをデプロイする前に信頼を喚起する。
論文 参考訳(メタデータ) (2021-08-16T12:20:57Z) - Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。
クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。
将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文 参考訳(メタデータ) (2021-04-20T17:16:41Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - GraspNet: A Large-Scale Clustered and Densely Annotated Dataset for
Object Grasping [49.777649953381676]
我々は,統合評価システムを用いた大規模グリップポーズ検出データセットに貢献する。
データセットには87,040枚のRGBD画像と3億7000万枚以上のグリップポーズが含まれている。
論文 参考訳(メタデータ) (2019-12-31T18:15:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。