論文の概要: Introducing a Family of Synthetic Datasets for Research on Bias in
Machine Learning
- arxiv url: http://arxiv.org/abs/2107.08928v1
- Date: Mon, 19 Jul 2021 14:40:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 18:05:36.431721
- Title: Introducing a Family of Synthetic Datasets for Research on Bias in
Machine Learning
- Title(参考訳): 機械学習におけるバイアス研究のための合成データセットファミリーの導入
- Authors: William Blanzeisky, P\'adraig Cunningham, Kenneth Kennedy
- Abstract要約: データを概観し、偏りのレベルをどのように変化させるかを説明し、データに関する実験の簡単な例を示す。
- 参考スコア(独自算出の注目度): 1.7403133838762446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A significant impediment to progress in research on bias in machine learning
(ML) is the availability of relevant datasets. This situation is unlikely to
change much given the sensitivity of such data. For this reason, there is a
role for synthetic data in this research. In this short paper, we present one
such family of synthetic data sets. We provide an overview of the data,
describe how the level of bias can be varied, and present a simple example of
an experiment on the data.
- Abstract(参考訳): 機械学習(ML)におけるバイアスの研究の進展に対する重要な障害は、関連するデータセットの可用性である。
このようなデータの感度を考えると、この状況は大きく変わる可能性は低い。
そのため、この研究には合成データの役割がある。
本稿では,このような合成データセットの族について述べる。
データを概観し、偏りのレベルをどのように変化させるかを説明し、データに関する実験の簡単な例を示す。
関連論文リスト
- The Real Deal Behind the Artificial Appeal: Inferential Utility of Tabular Synthetic Data [40.165159490379146]
評価値が不偏であっても, 偽陽性の発見率(タイプ1の誤り)は不可避的に高いことが示唆された。
以前提案された補正係数が使用されているにもかかわらず、この問題は深層生成モデルに対して持続する。
論文 参考訳(メタデータ) (2023-12-13T02:04:41Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular
data [81.43750358586072]
本稿では,サンプルをサブグループに体系的に階層化するフレームワークであるData-IQを提案する。
実世界の4つの医療データセットに対するData-IQの利点を実験的に実証した。
論文 参考訳(メタデータ) (2022-10-24T08:57:55Z) - Investigating Bias with a Synthetic Data Generator: Empirical Evidence
and Philosophical Interpretation [66.64736150040093]
機械学習の応用は、私たちの社会でますます広まりつつある。
リスクは、データに埋め込まれたバイアスを体系的に広めることである。
本稿では,特定の種類のバイアスとその組み合わせで合成データを生成するフレームワークを導入することにより,バイアスを分析することを提案する。
論文 参考訳(メタデータ) (2022-09-13T11:18:50Z) - The (de)biasing effect of GAN-based augmentation methods on skin lesion
images [3.441021278275805]
新しい医学データセットは、学習プロセスに影響を与える刺激的な相関の源であるかもしれない。
データ不均衡を軽減する1つのアプローチは、GAN(Generative Adversarial Networks)によるデータ拡張である。
この研究は、それらのバイアス継承と合成データがモデルにどのように影響するかを比較するために、無条件および条件付きGANを探索した。
論文 参考訳(メタデータ) (2022-06-30T10:32:35Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Faking feature importance: A cautionary tale on the use of
differentially-private synthetic data [3.631918877491949]
本稿では,生データから得られる特徴量と合成データから得られる特徴量との一致を実証的に分析する。
プライバシのレベルによって異なるため、さまざまなユーティリティー対策を適用して、特徴的重要性の合意を定量化します。
この研究は、金融や医療といった分野において、高感度データセットの合成バージョンを開発する上で重要な意味を持つ。
論文 参考訳(メタデータ) (2022-03-02T19:11:43Z) - Transitioning from Real to Synthetic data: Quantifying the bias in model [1.6134566438137665]
本研究では,合成データを用いたモデルにおけるバイアスと公平性のトレードオフを確立することを目的とする。
合成データを用いて訓練したモデルには、様々なレベルのバイアスの影響があることを実証する。
論文 参考訳(メタデータ) (2021-05-10T06:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。