論文の概要: Leveraging Diffusion Models for Synthetic Data Augmentation in Protein Subcellular Localization Classification
- arxiv url: http://arxiv.org/abs/2505.22926v1
- Date: Wed, 28 May 2025 22:58:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.577652
- Title: Leveraging Diffusion Models for Synthetic Data Augmentation in Protein Subcellular Localization Classification
- Title(参考訳): タンパク質細胞内局在分類における合成データ拡張のための拡散モデルの活用
- Authors: Sylvey Lin, Zhi-Yi Cao,
- Abstract要約: ラベル一貫性を持つサンプルを生成するために,クラス条件記述拡散確率モデル(DDPM)を実装した。
私たちは、Mix LossとMix Representationという2つのハイブリッドトレーニング戦略を通じて、実際のデータとの統合を検討します。
本研究は, バイオメディカル画像分類に生成増強を取り入れた場合の, 現実的なデータ生成と堅牢な管理の重要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We investigate whether synthetic images generated by diffusion models can enhance multi-label classification of protein subcellular localization. Specifically, we implement a simplified class-conditional denoising diffusion probabilistic model (DDPM) to produce label-consistent samples and explore their integration with real data via two hybrid training strategies: Mix Loss and Mix Representation. While these approaches yield promising validation performance, our proposed MixModel exhibits poor generalization to unseen test data, underscoring the challenges of leveraging synthetic data effectively. In contrast, baseline classifiers built on ResNet backbones with conventional loss functions demonstrate greater stability and test-time performance. Our findings highlight the importance of realistic data generation and robust supervision when incorporating generative augmentation into biomedical image classification.
- Abstract(参考訳): 拡散モデルにより生成された合成画像は、タンパク質の細胞内局在の多ラベル分類を強化することができるかを検討する。
具体的には,ラベル一貫性のあるサンプルを生成し,Mix LossとMix Representationという2つのハイブリッドトレーニング戦略を通じて実データとの統合を探索するために,DDPM(class-conditional denoising diffusion probabilistic model)を単純化した。
これらの手法は有望な検証性能をもたらすが、提案したMixModelは、テストデータの見当たらない一般化に乏しく、合成データを効果的に活用することの難しさを浮き彫りにしている。
対照的に、従来の損失関数を持つResNetバックボーン上に構築されたベースライン分類器は、より安定性とテスト時間性能を示している。
本研究は, バイオメディカル画像分類に生成増強を取り入れた場合の, 現実的なデータ生成と堅牢な管理の重要性を浮き彫りにした。
関連論文リスト
- TarDiff: Target-Oriented Diffusion Guidance for Synthetic Electronic Health Record Time Series Generation [26.116599951658454]
時系列生成は臨床機械学習モデルの進歩に不可欠である。
観測データのみに対する忠実性は、モデル性能の向上を保証するものではない、と我々は主張する。
タスク固有のインフルエンスガイダンスを統合した,新たなターゲット指向拡散フレームワークであるTarDiffを提案する。
論文 参考訳(メタデータ) (2025-04-24T14:36:10Z) - Balanced Mixed-Type Tabular Data Synthesis with Diffusion Models [14.651592234678722]
現在の拡散モデルでは、トレーニングデータセットのバイアスを継承し、バイアス付き合成データを生成する傾向がある。
対象ラベルと感度属性のバランスの取れた結合分布を持つ公正な合成データを生成するために、センシティブガイダンスを組み込んだ新しいモデルを提案する。
本手法は, 得られたサンプルの品質を維持しつつ, トレーニングデータのバイアスを効果的に軽減する。
論文 参考訳(メタデータ) (2024-04-12T06:08:43Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Combining propensity score methods with variational autoencoders for
generating synthetic data in presence of latent sub-groups [0.0]
ヘテロジニティは、例えば、サブグループラベルによって示されるように知られ、あるいは未知であり、双曲性や歪みのような分布の性質にのみ反映されるかもしれない。
本研究では,変分オートエンコーダ(VAE)から合成データを取得する際に,このような異種性をどのように保存し,制御するかを検討する。
論文 参考訳(メタデータ) (2023-12-12T22:49:24Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Improving Adversarial Robustness by Contrastive Guided Diffusion Process [19.972628281993487]
データ生成における拡散モデルを導くために,コントラスト誘導拡散プロセス(Contrastive-Guided Diffusion Process, DP)を提案する。
生成データ間の識別性の向上は, 対向的ロバスト性の向上に不可欠であることを示す。
論文 参考訳(メタデータ) (2022-10-18T07:20:53Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Deceive D: Adaptive Pseudo Augmentation for GAN Training with Limited
Data [125.7135706352493]
GAN(Generative Adversarial Network)は、高忠実度画像を合成するために、訓練に十分なデータを必要とする。
近年の研究では、差別者の過度な適合により、限られたデータでGANを訓練することは困難であることが示されている。
本稿では,APA (Adaptive Pseudo Augmentation) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T18:13:45Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。