論文の概要: GANsemble for Small and Imbalanced Data Sets: A Baseline for Synthetic Microplastics Data
- arxiv url: http://arxiv.org/abs/2404.07356v2
- Date: Tue, 30 Apr 2024 18:29:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 17:45:32.793979
- Title: GANsemble for Small and Imbalanced Data Sets: A Baseline for Synthetic Microplastics Data
- Title(参考訳): GANsemble for Small and Un Balanced Data Sets: a Baseline for Synthetic Microplastics Data
- Authors: Daniel Platnick, Sourena Khanzadeh, Alireza Sadeghian, Richard Anthony Valenzano,
- Abstract要約: 本稿では,データ拡張と条件付き生成逆数ネットワーク(cGAN)を接続し,クラス条件付き合成データを生成するフレームワークであるGANsembleを提案する。
我々の知る限り、この研究は、人工的にマイクロプラスチックデータを作成するための生成AIの最初の応用である。
- 参考スコア(独自算出の注目度): 2.307414552248669
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Microplastic particle ingestion or inhalation by humans is a problem of growing concern. Unfortunately, current research methods that use machine learning to understand their potential harms are obstructed by a lack of available data. Deep learning techniques in particular are challenged by such domains where only small or imbalanced data sets are available. Overcoming this challenge often involves oversampling underrepresented classes or augmenting the existing data to improve model performance. This paper proposes GANsemble: a two-module framework connecting data augmentation with conditional generative adversarial networks (cGANs) to generate class-conditioned synthetic data. First, the data chooser module automates augmentation strategy selection by searching for the best data augmentation strategy. Next, the cGAN module uses this strategy to train a cGAN for generating enhanced synthetic data. We experiment with the GANsemble framework on a small and imbalanced microplastics data set. A Microplastic-cGAN (MPcGAN) algorithm is introduced, and baselines for synthetic microplastics (SYMP) data are established in terms of Frechet Inception Distance (FID) and Inception Scores (IS). We also provide a synthetic microplastics filter (SYMP-Filter) algorithm to increase the quality of generated SYMP. Additionally, we show the best amount of oversampling with augmentation to fix class imbalance in small microplastics data sets. To our knowledge, this study is the first application of generative AI to synthetically create microplastics data.
- Abstract(参考訳): マイクロプラスチック粒子の摂取やヒトによる吸入は、懸念が高まっている問題である。
残念なことに、機械学習を使って潜在的な害を理解している現在の研究手法は、利用可能なデータの不足によって妨げられている。
特にディープラーニング技術は、小さなデータセットや不均衡なデータセットしか利用できないようなドメインによって挑戦されている。
この課題を克服するには、しばしば、未表現のクラスをオーバーサンプリングしたり、モデルパフォーマンスを改善するために既存のデータを増強する。
本稿では,データ拡張と条件付き生成逆数ネットワーク(cGAN)を接続し,クラス条件付き合成データを生成する2モジュールフレームワークであるGANsembleを提案する。
まず、データ選択モジュールは、最適なデータ拡張戦略を探索することにより、拡張戦略選択を自動化する。
次に、cGANモジュールは、この戦略を使用して、強化された合成データを生成するためにcGANを訓練する。
我々は,小かつ不均衡なマイクロプラスチックデータセット上でGANsembleフレームワークを実験した。
マイクロプラスチック-cGAN(MPcGAN)アルゴリズムを導入し、Frechet Inception Distance(FID)およびInception Scores(IS)の観点から、合成マイクロプラスチック(SYMP)データのベースラインを確立する。
また, 合成マイクロプラスチックフィルタ(SYMP-Filter)アルゴリズムにより, 生成したSYMPの品質を向上させる。
さらに,小型マイクロプラスチックデータセットにおいて,クラス不均衡を解消するためのオーバサンプリングの最大値を示す。
我々の知る限り、この研究は、人工的にマイクロプラスチックデータを作成するための生成AIの最初の応用である。
関連論文リスト
- An Autoencoder and Generative Adversarial Networks Approach for Multi-Omics Data Imbalanced Class Handling and Classification [2.2940141855172036]
分子生物学では、マルチオミクスシークエンシングから生成されるデータの爆発があった。
従来の統計手法は、そのような高次元データを扱う際に難しい課題に直面している。
この研究は、オートエンコーダを組み込んだニューラルネットワークでこれらの課題に取り組むことに焦点を当て、特徴の潜在空間を抽出する。
論文 参考訳(メタデータ) (2024-05-16T01:45:55Z) - FLIGAN: Enhancing Federated Learning with Incomplete Data using GAN [1.5749416770494706]
Federated Learning (FL)は、ネットワークデバイス上での機械学習モデルの分散トレーニングのためのプライバシ保護メカニズムを提供する。
本稿では,FLにおけるデータ不完全性問題に対処する新しいアプローチであるFLIGANを提案する。
本手法はFLのプライバシ要件に則り,プロセス内の実際のデータを共有せずに合成データをフェデレートした方法で生成する。
論文 参考訳(メタデータ) (2024-03-25T16:49:38Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - Filling the Missing: Exploring Generative AI for Enhanced Federated
Learning over Heterogeneous Mobile Edge Devices [72.61177465035031]
ローカルデータのFIMI(FIlling the MIssing)部分を活用することにより,これらの課題に対処する,AIを活用した創発的なフェデレーション学習を提案する。
実験の結果,FIMIはデバイス側エネルギーの最大50%を節約し,目標とするグローバルテスト精度を達成できることがわかった。
論文 参考訳(メタデータ) (2023-10-21T12:07:04Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Regularizing Neural Networks with Meta-Learning Generative Models [40.45689466486025]
メタ生成正則化(Meta Generative regularization, MGR)と呼ばれる新しい生成データ拡張戦略を提案する。
MGRは、例えばクロスエントロピーのような損失関数の代わりに、特徴抽出器の正則化項で合成サンプルを利用する。
6つのデータセットの実験では、MGRは特にデータセットが小さく、安定してベースラインを上回っている場合に有効であることが示された。
論文 参考訳(メタデータ) (2023-07-26T01:47:49Z) - PLASTIC: Improving Input and Label Plasticity for Sample Efficient
Reinforcement Learning [54.409634256153154]
強化学習(RL)では, サンプル効率の向上が重要である。
原則として、非政治的なRLアルゴリズムは、環境相互作用毎に複数の更新を可能にすることで、サンプル効率を向上させることができる。
本研究は, この現象の原因を, 塑性を2つの側面に分けて検討した。
論文 参考訳(メタデータ) (2023-06-19T06:14:51Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Hybrid Deep Learning Model using SPCAGAN Augmentation for Insider Threat
Analysis [7.576808824987132]
ディープラーニングを用いた異常検出には包括的データが必要であるが、機密性に関する懸念からインサイダー脅威データは利用できない。
本研究では,不均一なデータソースから入力を受ける線形多様体学習に基づく生成逆ネットワークSPCAGANを提案する。
提案手法は誤差が低く,精度が高く,従来のモデルよりもはるかに優れた合成インサイダー脅威データを生成する。
論文 参考訳(メタデータ) (2022-03-06T02:08:48Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。