論文の概要: Synthetic Data Augmentation for Enhancing Harmful Algal Bloom Detection with Machine Learning
- arxiv url: http://arxiv.org/abs/2503.03794v1
- Date: Wed, 05 Mar 2025 11:50:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:01:56.447959
- Title: Synthetic Data Augmentation for Enhancing Harmful Algal Bloom Detection with Machine Learning
- Title(参考訳): 機械学習による有害なアルガルブルームの検出を促進するための合成データ拡張
- Authors: Tianyi Huang,
- Abstract要約: 有害なアルガルブルーム(HAB)は水生生物や公衆衛生に深刻な脅威を与え、世界的な経済的損失をもたらしている。
本研究では,HABモニタリングシステムを強化するための合成データ拡張法について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Harmful Algal Blooms (HABs) pose severe threats to aquatic ecosystems and public health, resulting in substantial economic losses globally. Early detection is crucial but often hindered by the scarcity of high-quality datasets necessary for training reliable machine learning (ML) models. This study investigates the use of synthetic data augmentation using Gaussian Copulas to enhance ML-based HAB detection systems. Synthetic datasets of varying sizes (100-1,000 samples) were generated using relevant environmental features$\unicode{x2015}$water temperature, salinity, and UVB radiation$\unicode{x2015}$with corrected Chlorophyll-a concentration as the target variable. Experimental results demonstrate that moderate synthetic augmentation significantly improves model performance (RMSE reduced from 0.4706 to 0.1850; $p < 0.001$). However, excessive synthetic data introduces noise and reduces predictive accuracy, emphasizing the need for a balanced approach to data augmentation. These findings highlight the potential of synthetic data to enhance HAB monitoring systems, offering a scalable and cost-effective method for early detection and mitigation of ecological and public health risks.
- Abstract(参考訳): 有害なアルガルブルーム(HABs)は、水生生態系や公衆衛生に深刻な脅威を与え、世界的な経済的損失をもたらす。
早期検出は不可欠だが、信頼性のある機械学習(ML)モデルのトレーニングに必要な高品質データセットの不足によって、しばしば妨げられる。
本研究では,Gaussian Copulasを用いた合成データ拡張によるMLベースのHAB検出システムの改良について検討した。
対象変数としてクロロフィル-a濃度を補正した, 環境特性$\unicode{x2015}$水温, 塩分濃度およびUVB放射$\unicode{x2015}$水温を用いて, 異なるサイズ(100-1,000サンプル)の合成データセットを生成した。
実験結果から、中程度の合成増強はモデル性能を著しく向上させる(RMSEは0.4706から0.1850; $p < 0.001$)。
しかし、過剰な合成データはノイズを導入し、予測精度を低下させ、データの増大に対するバランスの取れたアプローチの必要性を強調している。
これらの知見は、HABモニタリングシステムを強化するための合成データの可能性を強調し、生態系や公衆衛生のリスクを早期に検出し緩和するためのスケーラブルで費用対効果の高い方法を提供する。
関連論文リスト
- Synthetic Poisoning Attacks: The Impact of Poisoned MRI Image on U-Net Brain Tumor Segmentation [8.955776982854985]
脳腫瘍分離のためのU-Netモデルのロバスト性およびセグメンテーション精度に及ぼす合成MRIデータの影響について検討した。
合成データ汚染の影響を定量化するために、U-Netモデルを段階的に"汚染された"データセットに訓練する。
論文 参考訳(メタデータ) (2025-02-06T07:21:19Z) - Enhancing weed detection performance by means of GenAI-based image augmentation [0.0]
本稿では、安定拡散モデルを用いて、雑草検出モデルのための多様な合成画像を生成する、生成AIベースの拡張手法について検討する。
その結果、生成AI拡張データセットでトレーニングしたYOLOモデルの平均精度が大幅に向上した。
論文 参考訳(メタデータ) (2024-11-27T17:00:34Z) - Comprehensive Methodology for Sample Augmentation in EEG Biomarker Studies for Alzheimers Risk Classification [0.0]
主な型であるアルツハイマー病(AD)は70%の症例である。
脳波測定はADリスクを識別する可能性を示しているが、信頼性の高い比較のために大規模なサンプルを取得することは困難である。
本研究では,信号処理,調和化,統計的手法を統合し,サンプルサイズを向上し,ADリスク分類の信頼性を向上させる。
論文 参考訳(メタデータ) (2024-11-20T10:31:02Z) - Synthetic Image Learning: Preserving Performance and Preventing Membership Inference Attacks [5.0243930429558885]
本稿では,下流分類器の学習のための合成データの生成と利用を最適化するパイプラインである知識リサイクル(KR)を紹介する。
このパイプラインの核心は生成的知識蒸留(GKD)であり、情報の品質と有用性を大幅に向上させる技術が提案されている。
その結果、実データと合成データでトレーニングされたモデルと、実データでトレーニングされたモデルとの性能差が著しく低下した。
論文 参考訳(メタデータ) (2024-07-22T10:31:07Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - Retrosynthesis prediction enhanced by in-silico reaction data
augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。
3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-31T07:40:37Z) - Synthetically Enhanced: Unveiling Synthetic Data's Potential in Medical Imaging Research [4.475998415951477]
Generative AIは、合成画像を生成するための有望なアプローチを提供し、データセットの多様性を向上する。
本研究では, 医用画像研究の性能と一般化性に及ぼす合成データ補充の影響について検討した。
論文 参考訳(メタデータ) (2023-11-15T21:58:01Z) - PLASTIC: Improving Input and Label Plasticity for Sample Efficient
Reinforcement Learning [54.409634256153154]
強化学習(RL)では, サンプル効率の向上が重要である。
原則として、非政治的なRLアルゴリズムは、環境相互作用毎に複数の更新を可能にすることで、サンプル効率を向上させることができる。
本研究は, この現象の原因を, 塑性を2つの側面に分けて検討した。
論文 参考訳(メタデータ) (2023-06-19T06:14:51Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Unassisted Noise Reduction of Chemical Reaction Data Sets [59.127921057012564]
本稿では,データセットから化学的に間違ったエントリを除去するための,機械学習に基づく無支援アプローチを提案する。
その結果,クリーン化およびバランスの取れたデータセットでトレーニングしたモデルの予測精度が向上した。
論文 参考訳(メタデータ) (2021-02-02T09:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。