論文の概要: GANsemble for Small and Imbalanced Data Sets: A Baseline for Synthetic Microplastics Data
- arxiv url: http://arxiv.org/abs/2404.07356v2
- Date: Tue, 30 Apr 2024 18:29:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 17:45:32.793979
- Title: GANsemble for Small and Imbalanced Data Sets: A Baseline for Synthetic Microplastics Data
- Title(参考訳): GANsemble for Small and Un Balanced Data Sets: a Baseline for Synthetic Microplastics Data
- Authors: Daniel Platnick, Sourena Khanzadeh, Alireza Sadeghian, Richard Anthony Valenzano,
- Abstract要約: 本稿では,データ拡張と条件付き生成逆数ネットワーク(cGAN)を接続し,クラス条件付き合成データを生成するフレームワークであるGANsembleを提案する。
我々の知る限り、この研究は、人工的にマイクロプラスチックデータを作成するための生成AIの最初の応用である。
- 参考スコア(独自算出の注目度): 2.307414552248669
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Microplastic particle ingestion or inhalation by humans is a problem of growing concern. Unfortunately, current research methods that use machine learning to understand their potential harms are obstructed by a lack of available data. Deep learning techniques in particular are challenged by such domains where only small or imbalanced data sets are available. Overcoming this challenge often involves oversampling underrepresented classes or augmenting the existing data to improve model performance. This paper proposes GANsemble: a two-module framework connecting data augmentation with conditional generative adversarial networks (cGANs) to generate class-conditioned synthetic data. First, the data chooser module automates augmentation strategy selection by searching for the best data augmentation strategy. Next, the cGAN module uses this strategy to train a cGAN for generating enhanced synthetic data. We experiment with the GANsemble framework on a small and imbalanced microplastics data set. A Microplastic-cGAN (MPcGAN) algorithm is introduced, and baselines for synthetic microplastics (SYMP) data are established in terms of Frechet Inception Distance (FID) and Inception Scores (IS). We also provide a synthetic microplastics filter (SYMP-Filter) algorithm to increase the quality of generated SYMP. Additionally, we show the best amount of oversampling with augmentation to fix class imbalance in small microplastics data sets. To our knowledge, this study is the first application of generative AI to synthetically create microplastics data.
- Abstract(参考訳): マイクロプラスチック粒子の摂取やヒトによる吸入は、懸念が高まっている問題である。
残念なことに、機械学習を使って潜在的な害を理解している現在の研究手法は、利用可能なデータの不足によって妨げられている。
特にディープラーニング技術は、小さなデータセットや不均衡なデータセットしか利用できないようなドメインによって挑戦されている。
この課題を克服するには、しばしば、未表現のクラスをオーバーサンプリングしたり、モデルパフォーマンスを改善するために既存のデータを増強する。
本稿では,データ拡張と条件付き生成逆数ネットワーク(cGAN)を接続し,クラス条件付き合成データを生成する2モジュールフレームワークであるGANsembleを提案する。
まず、データ選択モジュールは、最適なデータ拡張戦略を探索することにより、拡張戦略選択を自動化する。
次に、cGANモジュールは、この戦略を使用して、強化された合成データを生成するためにcGANを訓練する。
我々は,小かつ不均衡なマイクロプラスチックデータセット上でGANsembleフレームワークを実験した。
マイクロプラスチック-cGAN(MPcGAN)アルゴリズムを導入し、Frechet Inception Distance(FID)およびInception Scores(IS)の観点から、合成マイクロプラスチック(SYMP)データのベースラインを確立する。
また, 合成マイクロプラスチックフィルタ(SYMP-Filter)アルゴリズムにより, 生成したSYMPの品質を向上させる。
さらに,小型マイクロプラスチックデータセットにおいて,クラス不均衡を解消するためのオーバサンプリングの最大値を示す。
我々の知る限り、この研究は、人工的にマイクロプラスチックデータを作成するための生成AIの最初の応用である。
関連論文リスト
- Improving Equity in Health Modeling with GPT4-Turbo Generated Synthetic Data: A Comparative Study [1.85743121594882]
デモグラフィック群は、しばしば医学データセットで異なるレートで表現される。
これらの違いは機械学習アルゴリズムに偏りを生じさせ、より表現しやすいグループのパフォーマンスが向上する。
1つの有望な解決策は、非表現的データセットの潜在的な悪影響を軽減するために合成データを生成することである。
論文 参考訳(メタデータ) (2024-12-20T20:49:17Z) - Evaluating Language Models as Synthetic Data Generators [74.80905172696366]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。
6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2024-12-04T19:20:32Z) - Generation of synthetic gait data: application to multiple sclerosis patients' gait patterns [0.0]
多発性硬化症(Multiple sclerosis, MS)は、若年者における非外傷性障害の主要な原因であり、その頻度は世界中で増加している。
MSにおける歩行障害の変動は、定量的歩行評価のための非侵襲的で敏感で費用対効果の高いツールの開発を必要とする。
eGait運動センサは、股関節回転を表す単位四元数時系列(QTS)を通して人間の歩行を特徴付けるように設計されており、有望なアプローチである。
しかし、臨床研究に典型的な小さなサンプルサイズは、歩行データ解析ツールの安定性に課題をもたらす。
論文 参考訳(メタデータ) (2024-11-15T17:32:01Z) - Cancer-Net SCa-Synth: An Open Access Synthetically Generated 2D Skin Lesion Dataset for Skin Cancer Classification [65.83291923029985]
アメリカ合衆国では、皮膚がんが最も一般的に診断されるがんと位置づけられており、公衆衛生上の問題となっている。
データセットのキュレーションとディープラーニングの進歩により、皮膚がんの迅速かつ正確な検出が期待できる。
Cancer-Net SCa- Synthは、皮膚がん分類のためのオープンアクセス合成された2D皮膚病変データセットである。
論文 参考訳(メタデータ) (2024-11-08T02:04:21Z) - An Autoencoder and Generative Adversarial Networks Approach for Multi-Omics Data Imbalanced Class Handling and Classification [2.2940141855172036]
分子生物学では、マルチオミクスシークエンシングから生成されるデータの爆発があった。
従来の統計手法は、そのような高次元データを扱う際に難しい課題に直面している。
この研究は、オートエンコーダを組み込んだニューラルネットワークでこれらの課題に取り組むことに焦点を当て、特徴の潜在空間を抽出する。
論文 参考訳(メタデータ) (2024-05-16T01:45:55Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Regularizing Neural Networks with Meta-Learning Generative Models [40.45689466486025]
メタ生成正則化(Meta Generative regularization, MGR)と呼ばれる新しい生成データ拡張戦略を提案する。
MGRは、例えばクロスエントロピーのような損失関数の代わりに、特徴抽出器の正則化項で合成サンプルを利用する。
6つのデータセットの実験では、MGRは特にデータセットが小さく、安定してベースラインを上回っている場合に有効であることが示された。
論文 参考訳(メタデータ) (2023-07-26T01:47:49Z) - PLASTIC: Improving Input and Label Plasticity for Sample Efficient
Reinforcement Learning [54.409634256153154]
強化学習(RL)では, サンプル効率の向上が重要である。
原則として、非政治的なRLアルゴリズムは、環境相互作用毎に複数の更新を可能にすることで、サンプル効率を向上させることができる。
本研究は, この現象の原因を, 塑性を2つの側面に分けて検討した。
論文 参考訳(メタデータ) (2023-06-19T06:14:51Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。