論文の概要: Enhancing Data Quality through Simple De-duplication: Navigating Responsible Computational Social Science Research
- arxiv url: http://arxiv.org/abs/2410.03545v1
- Date: Fri, 4 Oct 2024 15:58:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 21:39:44.733122
- Title: Enhancing Data Quality through Simple De-duplication: Navigating Responsible Computational Social Science Research
- Title(参考訳): 単純重複によるデータ品質向上:責任ある計算社会科学研究をナビゲートする
- Authors: Yida Mu, Mali Jin, Xingyi Song, Nikolaos Aletras,
- Abstract要約: 我々は,計算社会科学のNLPで広く使われている20のデータセットについて,詳細な調査を行う。
分析の結果、ソーシャルメディアのデータセットは様々なレベルのデータ重複を示すことが明らかとなった。
以上の結果から,データ重複が現状の最先端性能の主張に影響を及ぼすことが示唆された。
- 参考スコア(独自算出の注目度): 31.993279516471283
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Research in natural language processing (NLP) for Computational Social Science (CSS) heavily relies on data from social media platforms. This data plays a crucial role in the development of models for analysing socio-linguistic phenomena within online communities. In this work, we conduct an in-depth examination of 20 datasets extensively used in NLP for CSS to comprehensively examine data quality. Our analysis reveals that social media datasets exhibit varying levels of data duplication. Consequently, this gives rise to challenges like label inconsistencies and data leakage, compromising the reliability of models. Our findings also suggest that data duplication has an impact on the current claims of state-of-the-art performance, potentially leading to an overestimation of model effectiveness in real-world scenarios. Finally, we propose new protocols and best practices for improving dataset development from social media data and its usage.
- Abstract(参考訳): 計算社会科学(CSS)のための自然言語処理(NLP)の研究は、ソーシャルメディアプラットフォームからのデータに大きく依存している。
このデータは,オンラインコミュニティにおける社会言語現象の分析モデルの開発において重要な役割を担っている。
本研究では,NLP for CSSで広く使われている20のデータセットの詳細な調査を行い,データ品質を包括的に調査する。
分析の結果、ソーシャルメディアのデータセットは様々なレベルのデータ重複を示すことが明らかとなった。
これにより、ラベルの不整合やデータの漏洩といった問題が発生し、モデルの信頼性が損なわれる。
我々の研究結果は、データ重複が現在の最先端性能の主張に影響を与え、現実のシナリオにおけるモデルの有効性を過大評価する可能性があることを示唆している。
最後に,ソーシャルメディアデータからデータセット開発を改善するための新しいプロトコルとベストプラクティスを提案する。
関連論文リスト
- A Survey on Data Synthesis and Augmentation for Large Language Models [35.59526251210408]
本稿では,大規模言語モデルのライフサイクルを通じてデータ生成手法をレビューし,要約する。
これらの手法が直面する現在の制約について考察し,今後の開発・研究の道筋について考察する。
論文 参考訳(メタデータ) (2024-10-16T16:12:39Z) - Leveraging GPT for the Generation of Multi-Platform Social Media Datasets for Research [0.0]
ソーシャルメディアデータセットは、偽情報、影響操作、ソーシャルセンシング、ヘイトスピーチ検出、サイバーいじめ、その他の重要なトピックの研究に不可欠である。
これらのデータセットへのアクセスは、コストとプラットフォーム規制のために制限されることが多い。
本稿では,複数のプラットフォームにまたがって,語彙的および意味論的に関連するソーシャルメディアデータセットを作成するための,大規模言語モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-07-11T09:12:39Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Curating Grounded Synthetic Data with Global Perspectives for Equitable AI [0.5120567378386615]
我々は,実世界の多様性を基盤として,戦略的多様化を通じて充実した合成データセットを作成するための新しいアプローチを導入する。
我々は12の言語と125の国にまたがる包括的なニュース記事の集合を用いてデータを合成し、言語的・文化的表現の広さを確実にする。
予備的な結果は、従来のNERベンチマークのパフォーマンスが最大7.3%向上したことを示している。
論文 参考訳(メタデータ) (2024-06-10T17:59:11Z) - A Comparative Study on Enhancing Prediction in Social Network Advertisement through Data Augmentation [0.6707149143800017]
本研究では,ソーシャルネットワーク広告データの生成的拡張フレームワークを提示し,検討する。
データ拡張のための3つの生成モデル - GAN(Generative Adversarial Networks)、VAE(variantal Autoencoders)、Gaussian Mixture Models(GMM) - を探索する。
論文 参考訳(メタデータ) (2024-04-22T01:16:11Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Data-Centric Long-Tailed Image Recognition [49.90107582624604]
ロングテールモデルは高品質なデータに対する強い需要を示している。
データ中心のアプローチは、モデルパフォーマンスを改善するために、データの量と品質の両方を強化することを目的としています。
現在、情報強化の有効性を説明するメカニズムに関する研究が不足している。
論文 参考訳(メタデータ) (2023-11-03T06:34:37Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Does Synthetic Data Make Large Language Models More Efficient? [0.0]
本稿では,NLPにおける合成データ生成のニュアンスについて考察する。
データ拡張の可能性や構造化品種の導入など、その利点を強調します。
テンプレートベースの合成データが現代の変圧器モデルの性能に与える影響を実証する。
論文 参考訳(メタデータ) (2023-10-11T19:16:09Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Quasi-Global Momentum: Accelerating Decentralized Deep Learning on
Heterogeneous Data [77.88594632644347]
ディープラーニングモデルの分散トレーニングは、ネットワーク上でデータプライバシとデバイス上での学習を可能にする重要な要素である。
現実的な学習シナリオでは、異なるクライアントのローカルデータセットに異質性が存在することが最適化の課題となる。
本稿では,この分散学習の難しさを軽減するために,運動量に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-09T11:27:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。