論文の概要: Balanced Face Dataset: Guiding StyleGAN to Generate Labeled Synthetic
Face Image Dataset for Underrepresented Group
- arxiv url: http://arxiv.org/abs/2308.03495v1
- Date: Mon, 7 Aug 2023 11:42:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 14:02:59.434468
- Title: Balanced Face Dataset: Guiding StyleGAN to Generate Labeled Synthetic
Face Image Dataset for Underrepresented Group
- Title(参考訳): バランスの取れた顔データセット: アンダー表現グループのためのラベル付き合成顔画像データセットを生成するためのStyleGAN
- Authors: Kidist Amde Mekonnen
- Abstract要約: 現実世界のデータセットは、しばしば過剰に表現され、表現されていないグループである。
機械学習におけるバイアスを軽減する一つの解決策は、多様で代表的なデータセットを活用することである。
本研究の目的は、StyleGANモデルを用いて、堅牢な顔画像データセットを作成することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: For a machine learning model to generalize effectively to unseen data within
a particular problem domain, it is well-understood that the data needs to be of
sufficient size and representative of real-world scenarios. Nonetheless,
real-world datasets frequently have overrepresented and underrepresented
groups. One solution to mitigate bias in machine learning is to leverage a
diverse and representative dataset. Training a model on a dataset that covers
all demographics is crucial to reducing bias in machine learning. However,
collecting and labeling large-scale datasets has been challenging, prompting
the use of synthetic data generation and active labeling to decrease the costs
of manual labeling. The focus of this study was to generate a robust face image
dataset using the StyleGAN model. In order to achieve a balanced distribution
of the dataset among different demographic groups, a synthetic dataset was
created by controlling the generation process of StyleGaN and annotated for
different downstream tasks.
- Abstract(参考訳): 機械学習モデルが特定の問題領域内のデータを効果的に認識するために一般化するためには、データのサイズと実世界のシナリオを表す必要があるとよく理解されている。
それでも、現実世界のデータセットはしばしば過剰に表現され、表現されていないグループである。
機械学習のバイアスを軽減するひとつのソリューションは、多様で代表的なデータセットを活用することだ。
すべての人口動態をカバーするデータセットでモデルをトレーニングすることは、機械学習のバイアスを減らすために不可欠である。
しかし、大規模なデータセットの収集とラベル付けは困難であり、手動ラベリングのコストを削減すべく、合成データ生成とアクティブラベリングを使用する。
本研究の目的は,styleganモデルを用いたロバストな顔画像データセットの作成である。
異なる人口集団間でのデータセットのバランスの取れた分布を達成するために、StyleGaNの生成過程を制御し、異なる下流タスクに注釈を付けた合成データセットを開発した。
関連論文リスト
- Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - Combining Public Human Activity Recognition Datasets to Mitigate Labeled
Data Scarcity [1.274578243851308]
本稿では,一般公開されたデータセットと一般化されたHARモデルを学習するための新たな戦略を提案する。
我々の実験評価は、さまざまな最先端ニューラルネットワークアーキテクチャの実験を含むもので、公開データセットを組み合わせることで、ラベル付きサンプルの数を著しく削減できることを示している。
論文 参考訳(メタデータ) (2023-06-23T18:51:22Z) - Zero-shot racially balanced dataset generation using an existing biased
StyleGAN2 [5.463417677777276]
本稿では, 偏りのある生成モデルであるStyleGAN2を用いて, 人口統計学的に多様な合成個体の画像を作成する手法を提案する。
1レースあたり50,000のIDを含むバランスの取れたデータセットで顔認識モデルをトレーニングすることで、パフォーマンスを改善し、実際のデータセットでトレーニングされたモデルに存在した可能性のあるバイアスを最小限にすることができる。
論文 参考訳(メタデータ) (2023-05-12T18:07:10Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Adaptive Sampling Strategies to Construct Equitable Training Datasets [0.7036032466145111]
コンピュータビジョンから自然言語処理までの領域では、機械学習モデルがスタークの相違を示すことが示されている。
これらのパフォーマンスギャップに寄与する要因の1つは、モデルがトレーニングしたデータに表現力の欠如である。
公平なトレーニングデータセットを作成する際の問題を形式化し、この問題に対処するための統計的枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-31T19:19:30Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - Representation Matters: Assessing the Importance of Subgroup Allocations
in Training Data [85.43008636875345]
訓練データにおける多様な表現は,サブグループのパフォーマンス向上と集団レベルの目標達成の鍵である。
分析と実験は、データセット構成がパフォーマンスにどのように影響するかを説明し、既存のデータにおけるトレンドとドメイン知識を用いて、意図的かつ客観的なデータセット設計を導くのに役立つ構成結果を提供する。
論文 参考訳(メタデータ) (2021-03-05T00:27:08Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - A Note on Data Biases in Generative Models [16.86600007830682]
生成モデルの性能に及ぼすデータセット品質の影響について検討する。
生成モデルによりデータセットの社会的バイアスがどのように再現されるかを示す。
本稿では,写真,油絵,アニメなどの多様なデータセット間の非ペア転送を通じて,クリエイティブな応用を提示する。
論文 参考訳(メタデータ) (2020-12-04T10:46:37Z) - Partially Conditioned Generative Adversarial Networks [75.08725392017698]
Generative Adversarial Networks (GAN)は、実世界のトレーニングデータセットの基盤となる確率分布を暗黙的にモデル化することで、人工データセットを合成する。
条件付きGANとその変種の導入により、これらの手法はデータセット内の各サンプルで利用可能な補助情報に基づいて条件付きサンプルを生成するように拡張された。
本研究では,標準条件付きGANがそのようなタスクに適さないことを論じ,新たなAdversarial Networkアーキテクチャとトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-07-06T15:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。