論文の概要: Diverse Community Data for Benchmarking Data Privacy Algorithms
- arxiv url: http://arxiv.org/abs/2306.13216v3
- Date: Tue, 31 Oct 2023 19:50:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 17:31:37.056841
- Title: Diverse Community Data for Benchmarking Data Privacy Algorithms
- Title(参考訳): データプライバシアルゴリズムのベンチマークのための分散コミュニティデータ
- Authors: Aniruddha Sen, Christine Task, Dhruv Kapur, Gary Howarth, Karan Bhagat
- Abstract要約: CRC(Collaborative Research Cycle)は、NIST(National Institute of Standards and Technology)のベンチマークプログラムである。
識別アルゴリズムは、他のデータ分析や機械学習アプリケーションに影響を与えるバイアスやプライバシーの問題に弱い。
本稿は,多様な集団間の関係と公平な特定の課題について,CRCの4つの貢献を要約する。
- 参考スコア(独自算出の注目度): 0.2999888908665658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Collaborative Research Cycle (CRC) is a National Institute of Standards
and Technology (NIST) benchmarking program intended to strengthen understanding
of tabular data deidentification technologies. Deidentification algorithms are
vulnerable to the same bias and privacy issues that impact other data analytics
and machine learning applications, and can even amplify those issues by
contaminating downstream applications. This paper summarizes four CRC
contributions: theoretical work on the relationship between diverse populations
and challenges for equitable deidentification; public benchmark data focused on
diverse populations and challenging features; a comprehensive open source suite
of evaluation metrology for deidentified datasets; and an archive of more than
450 deidentified data samples from a broad range of techniques. The initial set
of evaluation results demonstrate the value of these tools for investigations
in this field.
- Abstract(参考訳): コラボレーティブ・リサーチ・サイクル(collaborative research cycle、crc)は、国立標準技術研究所(nist)のベンチマークプログラムであり、表データ識別技術の理解を強化することを目的としている。
識別アルゴリズムは、他のデータ分析や機械学習アプリケーションに影響を及ぼすのと同じバイアスやプライバシの問題に弱いため、下流のアプリケーションを汚染することでこれらの問題を増幅することもできる。
本論文はCRCの4つのコントリビューションを要約する: 多様な個体群と公平な識別の課題との関係に関する理論的研究、多様な個体群と課題の特徴に焦点を当てた公開ベンチマークデータ、同定されたデータセット評価の包括的なオープンソーススイート、および幅広い技術から450以上の特定データサンプルをアーカイブする。
評価結果の初期セットは,本分野におけるこれらのツールの価値を示すものである。
関連論文リスト
- On the Cross-Dataset Generalization of Machine Learning for Network
Intrusion Detection [50.38534263407915]
ネットワーク侵入検知システム(NIDS)はサイバーセキュリティの基本的なツールである。
多様なネットワークにまたがる一般化能力は、その有効性と現実のアプリケーションにとって必須の要素である。
本研究では,機械学習に基づくNIDSの一般化に関する包括的分析を行う。
論文 参考訳(メタデータ) (2024-02-15T14:39:58Z) - A Survey on Causal Discovery Methods for I.I.D. and Time Series Data [4.57769506869942]
因果発見(CD)アルゴリズムは、関連する観測データからシステムの変数間の因果関係を識別することができる。
本稿では、独立および同一分散データ(I.I.D.)データと時系列データの両方から因果発見を行うために設計された手法について広範な議論を行う。
論文 参考訳(メタデータ) (2023-03-27T09:21:41Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - GenSyn: A Multi-stage Framework for Generating Synthetic Microdata using
Macro Data Sources [21.32471030724983]
人口を特徴付ける個人レベルのデータ(マイクロデータ)は多くの現実世界の問題を研究するのに不可欠である。
本研究では,高分解能データの抽出方法として合成データ生成について検討する。
論文 参考訳(メタデータ) (2022-12-08T01:22:12Z) - Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文 参考訳(メタデータ) (2022-10-04T15:22:39Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - Comparative Analysis of Extreme Verification Latency Learning Algorithms [3.3439097577935213]
本稿では、EVLアルゴリズムのいくつかの弱点と強みを指摘するための総合的な調査と比較分析を行う。
この研究は、この分野の既存のアルゴリズムのレビューを研究コミュニティに提供するための、非常に最初の取り組みである。
論文 参考訳(メタデータ) (2020-11-26T16:34:56Z) - Bringing the People Back In: Contesting Benchmark Machine Learning
Datasets [11.00769651520502]
機械学習データの系譜である研究プログラムを概説し、これらのデータセットの作成方法と理由について検討する。
機械学習におけるベンチマークデータセットを基盤として運用する方法を解説し、これらのデータセットについて4つの研究課題を提起する。
論文 参考訳(メタデータ) (2020-07-14T23:22:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。