論文の概要: The Impact of Balancing Real and Synthetic Data on Accuracy and Fairness in Face Recognition
- arxiv url: http://arxiv.org/abs/2409.02867v1
- Date: Wed, 4 Sep 2024 16:50:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 16:52:09.843594
- Title: The Impact of Balancing Real and Synthetic Data on Accuracy and Fairness in Face Recognition
- Title(参考訳): 実データと合成データのバランスが顔認識の精度と公正性に及ぼす影響
- Authors: Andrea Atzori, Pietro Cosseddu, Gianni Fenu, Mirko Marras,
- Abstract要約: 人口統計学的にバランスのとれた認証データと合成データとが、顔認識モデルの精度と公正性に与える影響について検討した。
本研究は,<i>I</i> と<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>I</i>,<i>E</i>,<i>,</i>,<i>,<i>,<i>I</i>,</i>,<i>,<i>,<i>,<i>,
- 参考スコア(独自算出の注目度): 10.849598219674132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the recent years, the advancements in deep face recognition have fueled an increasing demand for large and diverse datasets. Nevertheless, the authentic data acquired to create those datasets is typically sourced from the web, which, in many cases, can lead to significant privacy issues due to the lack of explicit user consent. Furthermore, obtaining a demographically balanced, large dataset is even more difficult because of the natural imbalance in the distribution of images from different demographic groups. In this paper, we investigate the impact of demographically balanced authentic and synthetic data, both individually and in combination, on the accuracy and fairness of face recognition models. Initially, several generative methods were used to balance the demographic representations of the corresponding synthetic datasets. Then a state-of-the-art face encoder was trained and evaluated using (combinations of) synthetic and authentic images. Our findings emphasized two main points: (i) the increased effectiveness of training data generated by diffusion-based models in enhancing accuracy, whether used alone or combined with subsets of authentic data, and (ii) the minimal impact of incorporating balanced data from pre-trained generative methods on fairness (in nearly all tested scenarios using combined datasets, fairness scores remained either unchanged or worsened, even when compared to unbalanced authentic datasets). Source code and data are available at \url{https://cutt.ly/AeQy1K5G} for reproducibility.
- Abstract(参考訳): 近年では、顔認識の進歩により、大規模で多様なデータセットの需要が高まっている。
それでも、これらのデータセットを作成するために取得された真正なデータは、通常、Webから取得される。
さらに、人口統計学的にバランスのとれた大規模なデータセットを得ることは、異なる人口統計学的グループからの画像の分布が自然に不均衡であるために、さらに困難である。
本稿では,人口統計学的にバランスのとれた認証データと合成データとが,顔認識モデルの精度と公正性に与える影響について検討する。
当初は、対応する合成データセットの人口分布のバランスをとるために、いくつかの生成手法が用いられた。
そして、合成画像と認証画像を組み合わせて、最先端のフェイスエンコーダを訓練し、評価した。
以上の結果から,2つの重要な点が示唆された。
一 拡散モデルにより生成された訓練データによる、単独で使用するか、又は認証データのサブセットと組み合わせた場合の精度向上効果の増大
(II) 事前学習した生成手法から得られたバランスの取れたデータをフェアネスに組み込むことによる最小限の影響(組合せデータセットを用いたほぼ全てのテストシナリオにおいて、フェアネススコアは、バランスの取れていないデータセットと比較しても、変化または悪化したままであった)。
ソースコードとデータは再現性のために \url{https://cutt.ly/AeQy1K5G} で入手できる。
関連論文リスト
- Toward Fairer Face Recognition Datasets [69.04239222633795]
顔認識と検証は、ディープ表現の導入によってパフォーマンスが向上したコンピュータビジョンタスクである。
実際のトレーニングデータセットにおける顔データとバイアスのセンシティブな性格による倫理的、法的、技術的な課題は、彼らの開発を妨げる。
生成されたトレーニングデータセットに階層属性のバランス機構を導入することにより、公平性を促進する。
論文 参考訳(メタデータ) (2024-06-24T12:33:21Z) - Massively Annotated Datasets for Assessment of Synthetic and Real Data in Face Recognition [0.2775636978045794]
実データと合成データを用いて学習したモデルの性能のドリフトについて検討する。
属性集合上の実データと合成データセットの差について検討する。
興味深いことに、我々は実際のサンプルが合成分布を説明するのに十分であるにもかかわらず、その逆はもはや真実ではないことを検証した。
論文 参考訳(メタデータ) (2024-04-23T17:10:49Z) - If It's Not Enough, Make It So: Reducing Authentic Data Demand in Face Recognition through Synthetic Faces [16.977459035497162]
大規模な顔データセットは、主にWebベースのイメージから作成され、明示的なユーザの同意が欠如している。
本稿では,合成顔データを用いて効果的な顔認識モデルの訓練を行う方法について検討する。
論文 参考訳(メタデータ) (2024-04-04T15:45:25Z) - Bias and Diversity in Synthetic-based Face Recognition [12.408456748469426]
合成顔認証データセットの多様性が、真正なデータセットとどのように比較されるかを検討する。
性別、民族、年齢、地位の分布に注目します。
バイアスに関しては、合成ベースモデルが真ベースモデルと類似したバイアス挙動を持っていることが分かる。
論文 参考訳(メタデータ) (2023-11-07T13:12:34Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Face Recognition Using Synthetic Face Data [0.0]
我々は、コンピュータグラフィックスパイプラインを介してデジタル顔のレンダリングによって生成された合成データの有望な応用を強調し、競争力のある結果を得る。
モデルを微調整することで、何十万もの実画像のトレーニングで得られた結果に匹敵する結果が得られる。
また,モデル性能に及ぼすクラス内因子(化粧品,アクセサリー,ヘアカットなど)の追加効果についても検討した。
論文 参考訳(メタデータ) (2023-05-17T09:26:10Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Transitioning from Real to Synthetic data: Quantifying the bias in model [1.6134566438137665]
本研究では,合成データを用いたモデルにおけるバイアスと公平性のトレードオフを確立することを目的とする。
合成データを用いて訓練したモデルには、様々なレベルのバイアスの影響があることを実証する。
論文 参考訳(メタデータ) (2021-05-10T06:57:14Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Enhancing Facial Data Diversity with Style-based Face Aging [59.984134070735934]
特に、顔データセットは、通常、性別、年齢、人種などの属性の観点からバイアスされる。
本稿では, 細粒度の老化パターンをキャプチャするデータ拡張のための, 生成スタイルに基づく新しいアーキテクチャを提案する。
提案手法は, 年齢移動のための最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-06T21:53:44Z) - Long-Tailed Recognition Using Class-Balanced Experts [128.73438243408393]
本稿では,多様な分類器の強度を組み合わせたクラスバランスの専門家のアンサンブルを提案する。
私たちのクラスバランスの専門家のアンサンブルは、最先端に近い結果に到達し、長い尾の認識のための2つのベンチマークで新たな最先端のアンサンブルを確立します。
論文 参考訳(メタデータ) (2020-04-07T20:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。