論文の概要: BiometricBlender: Ultra-high dimensional, multi-class synthetic data
generator to imitate biometric feature space
- arxiv url: http://arxiv.org/abs/2206.10747v1
- Date: Tue, 21 Jun 2022 21:42:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-24 07:11:15.407084
- Title: BiometricBlender: Ultra-high dimensional, multi-class synthetic data
generator to imitate biometric feature space
- Title(参考訳): バイオメトリックブレンダー:生体特徴空間を模倣する超高次元多クラス合成データジェネレータ
- Authors: Marcell Stippinger, D\'avid Han\'ak, Marcell T. Kurbucz, Gergely
Hancz\'ar, Oliv\'er M. T\"orteli, Zolt\'an Somogyv\'ari
- Abstract要約: BiometricBlenderは超高次元多クラス合成データジェネレータである。
データ生成プロセスにおいて、ブレンドされた特徴の全体的な有用性と相互関係をユーザによって制御することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The lack of freely available (real-life or synthetic) high or ultra-high
dimensional, multi-class datasets may hamper the rapidly growing research on
feature screening, especially in the field of biometrics, where the usage of
such datasets is common. This paper reports a Python package called
BiometricBlender, which is an ultra-high dimensional, multi-class synthetic
data generator to benchmark a wide range of feature screening methods. During
the data generation process, the overall usefulness and the intercorrelations
of blended features can be controlled by the user, thus the synthetic feature
space is able to imitate the key properties of a real biometric dataset.
- Abstract(参考訳): 自由に利用可能な(実物または合成物)高次元または超高次元のマルチクラスデータセットの欠如は、特徴スクリーニングの研究、特にバイオメトリックスの分野では、このようなデータセットの使用が一般的である。
本稿では,超高次元多クラス合成データ生成器であるbiometricblenderと呼ばれるpythonパッケージについて報告する。
データ生成プロセスにおいて、ブレンドされた特徴の全体的な有用性と相互関係をユーザによって制御することができ、合成特徴空間は実際のバイオメトリックデータセットの重要な特性を模倣することができる。
関連論文リスト
- Convex space learning for tabular synthetic data generation [0.0]
本稿では,合成サンプルを生成可能なジェネレータと識別器コンポーネントを備えたディープラーニングアーキテクチャを提案する。
NextConvGeNが生成した合成サンプルは、実データと合成データの分類とクラスタリング性能をよりよく保存することができる。
論文 参考訳(メタデータ) (2024-07-13T07:07:35Z) - SynthEval: A Framework for Detailed Utility and Privacy Evaluation of Tabular Synthetic Data [3.360001542033098]
SynthEvalは、合成データのための新しいオープンソース評価フレームワークである。
特別な種類の前処理ステップを仮定することなく、分類的および数値的な属性を同等のケアで扱う。
我々のツールは統計的および機械学習技術を利用して、合成データの忠実度とプライバシー保護の整合性を包括的に評価する。
論文 参考訳(メタデータ) (2024-04-24T11:49:09Z) - Training Robust Deep Physiological Measurement Models with Synthetic
Video-based Data [11.31971398273479]
合成生理的信号とそれに対応する顔画像に現実の雑音を加える方法を提案する。
その結果,MAEの平均値は6.9から2.0に減少した。
論文 参考訳(メタデータ) (2023-11-09T13:55:45Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Generating Multidimensional Clusters With Support Lines [0.0]
合成データ生成のためのモジュラープロシージャであるClugenを提案する。
Clukenはオープンソースで、包括的なユニットテストとドキュメント化が可能である。
クラスタリングアルゴリズムの評価にはClugenが適していることを示す。
論文 参考訳(メタデータ) (2023-01-24T22:08:24Z) - Synthetic data enable experiments in atomistic machine learning [0.0]
既存のMLポテンシャルモデルから,原子単位のエネルギーをラベル付けした大規模データセットの使用を実演する。
このプロセスの安価さは、量子力学の土台真実に比べれば、数百万のデータポイントを生成できる。
合成データラベルの学習は、後続の小さなデータセットの微調整に有用な事前学習タスクであることを示す。
論文 参考訳(メタデータ) (2022-11-29T18:17:24Z) - BeCAPTCHA-Type: Biometric Keystroke Data Generation for Improved Bot
Detection [63.447493500066045]
本研究では,キーストローク生体データ合成のためのデータ駆動学習モデルを提案する。
提案手法は,ユニバーサルモデルとユーザ依存モデルに基づく2つの統計的手法と比較する。
実験フレームワークでは16万件の被験者から1億3600万件のキーストロークイベントのデータセットについて検討している。
論文 参考訳(メタデータ) (2022-07-27T09:26:15Z) - Synthetic Data: Opening the data floodgates to enable faster, more
directed development of machine learning methods [96.92041573661407]
機械学習における画期的な進歩の多くは、大量のリッチデータを利用できることに起因する。
多くの大規模データセットは、医療データなど高度に敏感であり、機械学習コミュニティでは広く利用できない。
プライバシー保証で合成データを生成することは、そのようなソリューションを提供します。
論文 参考訳(メタデータ) (2020-12-08T17:26:10Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。