論文の概要: Data-NoMAD: A Tool for Boosting Confidence in the Integrity of Social Science Survey Data
- arxiv url: http://arxiv.org/abs/2501.14651v1
- Date: Fri, 24 Jan 2025 17:16:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:55:36.146863
- Title: Data-NoMAD: A Tool for Boosting Confidence in the Integrity of Social Science Survey Data
- Title(参考訳): Data-NoMAD:社会科学調査データの信頼性向上ツール
- Authors: Sanford C. Gordon, Cyrus Samii, Zhihao Su,
- Abstract要約: Data-NoMADは、研究者がデータセットが不適切に操作されていないことを証明できるツールである。
Data-NoMADは後に、削除、追加、変更された列を特定することで、公開アーカイブされたデータセットの完全性を検証するために使用することができる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: To safeguard against data fabrication and enhance trust in quantitative social science, we present Data Non-Manipulation Authentication Digest (Data-NoMAD). Data-NoMAD is a tool that allows researchers to certify, and others to verify, that a dataset has not been inappropriately manipulated between the point of data collection and the point at which a replication archive is made publicly available. Data-NoMAD creates and stores a column hash digest of a raw dataset upon initial download from a survey platform (the current version works with Qualtrics and SurveyCTO), but before it is subject to appropriate manipulations such as anonymity-preserving redactions. Data-NoMAD can later be used to verify the integrity of a publicly archived dataset by identifying columns that have been deleted, added, or altered. Data-NoMAD complements existing efforts at ensuring research integrity and integrates seamlessly with extant replication practices.
- Abstract(参考訳): データ作成に対する保護と定量的社会科学への信頼を高めるために,データ非操作認証ダイジェスト(Data-NoMAD)を提案する。
Data-NoMADは、研究者がデータ収集のポイントと複製アーカイブが公開されているポイントの間にデータセットが不適切に操作されていないことを検証できるようにするツールである。
Data-NoMADは、調査プラットフォームから最初のダウンロード時に生データセットのカラムハッシュダイジェストを生成し、保存する(現在のバージョンはQualtricsとSurveyCTOで動作する)。
Data-NoMADは後に、削除、追加、変更された列を特定することで、公開アーカイブされたデータセットの完全性を検証するために使用することができる。
Data-NoMADは、研究の完全性を保証するための既存の取り組みを補完し、既存のレプリケーションプラクティスとシームレスに統合する。
関連論文リスト
- Private, Augmentation-Robust and Task-Agnostic Data Valuation Approach for Data Marketplace [56.78396861508909]
PriArTaは、買い手の既存のデータセットと売り手のデータセットの分布の間の距離を計算するアプローチである。
PriArTaは通信効率が良く、買い手は各売り手からデータセット全体にアクセスすることなくデータセットを評価することができる。
論文 参考訳(メタデータ) (2024-11-01T17:13:14Z) - Introducing a Comprehensive, Continuous, and Collaborative Survey of Intrusion Detection Datasets [2.7082111912355877]
COMIDDSは、侵入検出データセットを前例のないレベルで包括的に調査する試みである。
実際のデータサンプルや関連する出版物へのリンクを含む、各データセットに関する構造化されたクリティカルな情報を提供する。
論文 参考訳(メタデータ) (2024-08-05T14:40:41Z) - DataCook: Crafting Anti-Adversarial Examples for Healthcare Data Copyright Protection [47.91906879320081]
DataCookは、配布前に生データを"クッキング"することで、この処理されたデータに対して正常に実行されるモデルの開発を可能にする。
デプロイメントフェーズでは、オリジナルのテストデータをDataCookを通じて“クッキング”して、通常のモデルパフォーマンスを保証する必要がある。
DataCookの背後にあるメカニズムは、モデルの信頼性を高めるために設計された反逆例(AntiAdv)を作ることである。
論文 参考訳(メタデータ) (2024-03-26T14:44:51Z) - Stop Uploading Test Data in Plain Text: Practical Strategies for
Mitigating Data Contamination by Evaluation Benchmarks [70.39633252935445]
データ汚染は、大規模な自動クロールコーパスで事前訓練されたモデルの台頭によって、普及し、課題となっている。
クローズドモデルの場合、トレーニングデータはトレードシークレットになり、オープンモデルであっても汚染を検出するのは簡単ではない。
1)公開するテストデータを公開鍵で暗号化し,デリバティブ配信を許可する,(2)クローズドAPI保持者からの要求トレーニング排他的コントロールを許可する,(2)評価を拒否してテストデータを保護する,(3)インターネット上のソリューションで表示されるデータを避け,インターネット由来のWebページコンテキストを解放する,という3つの方法を提案する。
論文 参考訳(メタデータ) (2023-05-17T12:23:38Z) - Secure Multiparty Computation for Synthetic Data Generation from
Distributed Data [7.370727048591523]
関連データへのアクセスに関する法的および倫理的な制限は、健康、金融、教育といった重要な領域におけるデータ科学の研究を阻害する。
既存のアプローチでは、データ保持者は信頼されたキュレーターに生データを供給し、それを合成データ生成の燃料として利用する。
本稿では,データ保持者が暗号化されたデータのみを差分プライベートな合成データ生成のために共有する,最初のソリューションを提案する。
論文 参考訳(メタデータ) (2022-10-13T20:09:17Z) - Privacy-friendly Synthetic Data for the Development of Face Morphing
Attack Detectors [6.818216310314191]
この研究は、最初の合成ベースMAD開発データセット、すなわちSynthetic Morphing Detection Development dataset (SMDD)を紹介する。
このデータセットは、3つのMADバックボーンのトレーニングに成功し、完全に未知の攻撃タイプでも高いMAD性能が証明された。
論文 参考訳(メタデータ) (2022-03-13T15:55:00Z) - Yes-Yes-Yes: Donation-based Peer Reviewing Data Collection for ACL
Rolling Review and Beyond [58.71736531356398]
本稿では、ピアレビューデータについて詳細な議論を行い、ピアレビューデータ収集のための倫理的・法的デシダータの概要を述べるとともに、最初の継続的な寄付ベースのデータ収集ワークフローを提案する。
本稿では、ACL Rolling Reviewにおいて、このワークフローの現在進行中の実装について報告し、新たに収集したデータから得られた最初の洞察を提供する。
論文 参考訳(メタデータ) (2022-01-27T11:02:43Z) - The Problem of Zombie Datasets:A Framework For Deprecating Datasets [55.878249096379804]
我々は、ImageNet、8000 Million Tiny Images、MS-Celeb-1M、Duke MTMC、Brainwash、HRT Transgenderなど、いくつかの著名なデータセットの公開後処理について検討する。
本稿では,リスクの考慮,影響の緩和,アピール機構,タイムライン,非推奨プロトコル,公開チェックなどを含むデータセットの非推奨化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-18T20:13:51Z) - They are Not Completely Useless: Towards Recycling Transferable
Unlabeled Data for Class-Mismatched Semi-Supervised Learning [61.46572463531167]
SSL(Semi-Supervised Learning)とミスマッチしたクラスは、制限されたラベル付きデータにおける関心のクラスが、巨大なラベル付きデータに含まれるクラスのサブセットである、という問題に対処する。
本稿では,クラスミスマッチ型SSLを実現するために,TOOR(Transferable OOD data recycling)手法を提案する。
論文 参考訳(メタデータ) (2020-11-27T02:29:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。