Fugu-MT 論文翻訳(概要): Diverse Community Data for Benchmarking Data Privacy Algorithms

論文の概要: Diverse Community Data for Benchmarking Data Privacy Algorithms

arxiv url: http://arxiv.org/abs/2306.13216v1
Date: Tue, 20 Jun 2023 17:18:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-02 13:57:02.483541
Title: Diverse Community Data for Benchmarking Data Privacy Algorithms
Title（参考訳）: データプライバシアルゴリズムのベンチマークのための分散コミュニティデータ
Authors: Aniruddha Sen, Christine Task, Dhruv Kapur, Gary Howarth, Karan Bhagat
Abstract要約: 本稿では,多様な集団間の関係と等式同定の課題に関する新たな理論的研究を紹介する。公開ベンチマークデータは、アメリカン・コミュニティ・サーベイから収集された多様な人口と挑戦的な特徴に焦点を当てた。鑑定手法の広範な収集に関する評価結果のアーカイブ。
参考スコア（独自算出の注目度）: 0.18899300124593643
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Diverse Communities Data Excerpts are the core of a National Institute of Standards and Technology (NIST) program to strengthen understanding of tabular data deidentification technologies such as synthetic data. Synthetic data is an ambitious attempt to democratize the benefits of big data; it uses generative models to recreate sensitive personal data with new records for public release. However, it is vulnerable to the same bias and privacy issues that impact other machine learning applications, and can even amplify those issues. When deidentified data distributions introduce bias or artifacts, or leak sensitive information, they propagate these problems to downstream applications. Furthermore, real-world survey conditions such as diverse subpopulations, heterogeneous non-ordinal data spaces, and complex dependencies between features pose specific challenges for synthetic data algorithms. These observations motivate the need for real, diverse, and complex benchmark data to support a robust understanding of algorithm behavior. This paper introduces four contributions: new theoretical work on the relationship between diverse populations and challenges for equitable deidentification; public benchmark data focused on diverse populations and challenging features curated from the American Community Survey; an open source suite of evaluation metrology for deidentified datasets; and an archive of evaluation results on a broad collection of deidentification techniques. The initial set of evaluation results demonstrate the suitability of these tools for investigations in this field.
Abstract（参考訳）: 多様なコミュニティのデータ抜粋は、合成データのような表データ識別技術の理解を強化する国立標準技術研究所(nist)のプログラムの中核である。合成データ(synthetic data)は、ビッグデータのメリットを民主化する野心的な試みである。しかし、他の機械学習アプリケーションに影響を及ぼすバイアスやプライバシーの問題に弱いため、これらの問題を増幅することもできる。特定されていないデータ分布がバイアスやアーティファクト、機密情報を漏らすと、これらの問題を下流のアプリケーションに伝播させる。さらに、多様なサブポピュレーション、異質な非順序データ空間、特徴間の複雑な依存関係といった実世界の調査条件は、合成データアルゴリズムに特有の課題をもたらす。これらの観察は、アルゴリズムの振る舞いのロバストな理解をサポートするために、リアルで多様で複雑なベンチマークデータの必要性を動機付ける。本稿では, 多様な個体群と公平な識別課題との関係に関する新たな理論的研究, 多様な個体群に着目した公開ベンチマークデータと, アメリカコミュニティサーベイ(American Community Survey)から収集した課題データ, 同定されたデータセットに対する評価メタロジのオープンソーススイート, 幅広い識別手法に関する評価結果のアーカイブを紹介する。評価結果の最初の集合は、これらのツールがこの分野における調査に適していることを示すものである。

関連論文リスト

OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。 ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文参考訳（メタデータ） (2025-12-16T03:33:24Z)
Object Recognition Datasets and Challenges: A Review [5.638005500131518]
本研究では,高度に調査された物体認識領域におけるデータセットの詳細な分析を行う。本稿では,代表的なオブジェクト認識ベンチマークとコンペティションの概要を紹介する。導入されたデータセットと課題はすべて、.com/AbtinDjavadifar/ORDCでオンラインで見ることができる。
論文参考訳（メタデータ） (2025-07-30T03:56:37Z)
A Comprehensive Survey on Imbalanced Data Learning [56.65067795190842]
不均衡なデータは、さまざまな種類の生データに広まっており、機械学習のパフォーマンスを妨げる。本調査は,様々な実世界のデータ形式を体系的に分析する。さまざまなデータフォーマットに関する既存の研究は、データ再バランス、特徴表現、トレーニング戦略、アンサンブル学習の4つのカテゴリにまとめられている。
論文参考訳（メタデータ） (2025-02-13T04:53:17Z)
Tabular Data Synthesis with Differential Privacy: A Survey [24.500349285858597]
データ共有はコラボレーティブなイノベーションの前提条件であり、さまざまなデータセットを活用して深い洞察を得ることを可能にします。データ合成は、実際のデータの統計特性を保存する人工データセットを生成することで、この問題に対処する。プライバシーに配慮したデータ共有に対する、有望なアプローチとして、異なるプライベートなデータ合成が登場している。
論文参考訳（メタデータ） (2024-11-04T06:32:48Z)
Comprehensive Review and Empirical Evaluation of Causal Discovery Algorithms for Numerical Data [3.9523536371670045]
因果解析は、様々な分野における現象の根本原因を理解する上で不可欠な要素となっている。因果発見アルゴリズムに関する既存の文献は、一貫性のない方法論で断片化されている。包括的な評価の欠如、すなわちデータ特性は、ベンチマークアルゴリズムにおいて共同で解析されることがしばしば無視される。
論文参考訳（メタデータ） (2024-07-17T23:47:05Z)
Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文参考訳（メタデータ） (2024-06-20T16:34:07Z)
On the Cross-Dataset Generalization of Machine Learning for Network Intrusion Detection [50.38534263407915]
ネットワーク侵入検知システム(NIDS)はサイバーセキュリティの基本的なツールである。多様なネットワークにまたがる一般化能力は、その有効性と現実のアプリケーションにとって必須の要素である。本研究では,機械学習に基づくNIDSの一般化に関する包括的分析を行う。
論文参考訳（メタデータ） (2024-02-15T14:39:58Z)
A Survey on Causal Discovery Methods for I.I.D. and Time Series Data [4.57769506869942]
因果発見(CD)アルゴリズムは、関連する観測データからシステムの変数間の因果関係を識別することができる。本稿では、独立および同一分散データ(I.I.D.)データと時系列データの両方から因果発見を行うために設計された手法について広範な議論を行う。
論文参考訳（メタデータ） (2023-03-27T09:21:41Z)
A Gold Standard Dataset for the Reviewer Assignment Problem [70.45113777449373]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。既存のアルゴリズムを比較し、より良いアルゴリズムを開発する上で重要な課題は、公開された金標準データの欠如である。研究コミュニティにリリースした類似度スコアの新しいデータセットを収集します。
論文参考訳（メタデータ） (2023-03-23T16:15:03Z)
Human-Centric Multimodal Machine Learning: Recent Advances and Testbed on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。 i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文参考訳（メタデータ） (2023-02-13T16:44:44Z)
Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文参考訳（メタデータ） (2022-10-04T15:22:39Z)
DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文参考訳（メタデータ） (2022-07-20T17:47:54Z)
Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文参考訳（メタデータ） (2022-02-03T17:25:46Z)
Comparative Analysis of Extreme Verification Latency Learning Algorithms [3.3439097577935213]
本稿では、EVLアルゴリズムのいくつかの弱点と強みを指摘するための総合的な調査と比較分析を行う。この研究は、この分野の既存のアルゴリズムのレビューを研究コミュニティに提供するための、非常に最初の取り組みである。
論文参考訳（メタデータ） (2020-11-26T16:34:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。