論文の概要: Conditional Data Synthesis Augmentation
- arxiv url: http://arxiv.org/abs/2504.07426v1
- Date: Thu, 10 Apr 2025 03:38:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 21:36:17.05265
- Title: Conditional Data Synthesis Augmentation
- Title(参考訳): 条件付きデータ合成の強化
- Authors: Xinyu Tian, Xiaotong Shen,
- Abstract要約: Conditional Data Synthesis Augmentation (CoDSA)は、マルチモーダルドメイン間のモデルパフォーマンスを改善するために高忠実度データを合成する新しいフレームワークである。
合成データの現実性を高め,スパース領域の試料密度を高めるために,CoDSAファインチューン事前学習生成モデルを構築した。
本稿では,合成サンプル量と対象領域割り当ての関数として,CoDSAが実現した統計的精度向上を定量化する理論的枠組みを提案する。
- 参考スコア(独自算出の注目度): 4.3108820946281945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable machine learning and statistical analysis rely on diverse, well-distributed training data. However, real-world datasets are often limited in size and exhibit underrepresentation across key subpopulations, leading to biased predictions and reduced performance, particularly in supervised tasks such as classification. To address these challenges, we propose Conditional Data Synthesis Augmentation (CoDSA), a novel framework that leverages generative models, such as diffusion models, to synthesize high-fidelity data for improving model performance across multimodal domains including tabular, textual, and image data. CoDSA generates synthetic samples that faithfully capture the conditional distributions of the original data, with a focus on under-sampled or high-interest regions. Through transfer learning, CoDSA fine-tunes pre-trained generative models to enhance the realism of synthetic data and increase sample density in sparse areas. This process preserves inter-modal relationships, mitigates data imbalance, improves domain adaptation, and boosts generalization. We also introduce a theoretical framework that quantifies the statistical accuracy improvements enabled by CoDSA as a function of synthetic sample volume and targeted region allocation, providing formal guarantees of its effectiveness. Extensive experiments demonstrate that CoDSA consistently outperforms non-adaptive augmentation strategies and state-of-the-art baselines in both supervised and unsupervised settings.
- Abstract(参考訳): 信頼性の高い機械学習と統計分析は、多種多様な分散したトレーニングデータに依存している。
しかし、実世界のデータセットは、しばしばサイズが制限され、主要なサブポピュレーション全体にわたって過小評価され、特に分類などの監督されたタスクにおいて、バイアスのある予測と性能の低下につながる。
これらの課題に対処するために,拡散モデルなどの生成モデルを活用する新しいフレームワークであるConditional Data Synthesis Augmentation (CoDSA) を提案し,表やテキスト,画像データを含むマルチモーダル領域におけるモデル性能を改善するために高忠実度データを合成する。
CoDSAは、原データの条件分布を忠実にキャプチャする合成サンプルを生成し、アンダーサンプルや高関心領域に焦点をあてる。
転写学習を通じて、CoDSAは合成データの現実性を高め、スパース領域のサンプル密度を高めるために、事前訓練された生成モデルを微調整する。
このプロセスはモーダル間の関係を保ち、データの不均衡を緩和し、ドメイン適応を改善し、一般化を促進する。
また,合成サンプル量と対象領域割り当ての関数として,CoDSAが実現した統計的精度向上を定量化する理論フレームワークを導入し,その有効性を正式に保証する。
大規模な実験では、CoDSAは教師なしと教師なしの両方の設定において、非適応的な拡張戦略と最先端のベースラインを一貫して上回っている。
関連論文リスト
- TarDiff: Target-Oriented Diffusion Guidance for Synthetic Electronic Health Record Time Series Generation [26.116599951658454]
時系列生成は臨床機械学習モデルの進歩に不可欠である。
観測データのみに対する忠実性は、モデル性能の向上を保証するものではない、と我々は主張する。
タスク固有のインフルエンスガイダンスを統合した,新たなターゲット指向拡散フレームワークであるTarDiffを提案する。
論文 参考訳(メタデータ) (2025-04-24T14:36:10Z) - Statistical Guarantees in Synthetic Data through Conformal Adversarial Generation [1.3654846342364308]
既存の生成モデルは魅力的な合成サンプルを生成するが、基礎となるデータ分布との関係に関する厳密な統計的保証は欠如している。
本稿では,共形予測手法をGAN(Generative Adrial Networks)に組み込んだ新しいフレームワークを提案する。
このアプローチは、CGAN(Conformalized GAN)と呼ばれ、従来のGANの生成能力を維持しながら、キャリブレーション特性の強化を示す。
論文 参考訳(メタデータ) (2025-04-23T19:07:44Z) - Improving $(α, f)$-Byzantine Resilience in Federated Learning via layerwise aggregation and cosine distance [7.8973037023478785]
フェデレートラーニング(FL)は、分散機械学習におけるデータプライバシの課題に対する潜在的な解決策である。
FLシステムは、悪意のあるノードが破損したモデル更新に寄与するビザンティン攻撃に弱いままである。
本稿では,高次元設定における規則の堅牢性向上を目的とした新しいアグリゲーション手法であるLayerwise Cosine Aggregationを紹介する。
論文 参考訳(メタデータ) (2025-03-27T08:07:39Z) - MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - Transfer Learning for Diffusion Models [43.10840361752551]
拡散モデルは高品質な合成サンプルを一貫して生成する。
コレクションコストや関連するリスクのため、現実のアプリケーションでは実用的ではありません。
本稿では,従来の微調整法や正規化法とは異なる新しいアプローチであるTransfer Guided Diffusion Process (TGDP)を紹介する。
論文 参考訳(メタデータ) (2024-05-27T06:48:58Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - Private Synthetic Data Meets Ensemble Learning [15.425653946755025]
機械学習モデルが合成データに基づいてトレーニングされ、実際のデータにデプロイされると、しばしばパフォーマンス低下が発生する。
実データを用いた場合のパフォーマンス向上を目標として,下流モデルのトレーニングのための新たなアンサンブル戦略を導入する。
論文 参考訳(メタデータ) (2023-10-15T04:24:42Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Perturbation-Assisted Sample Synthesis: A Novel Approach for Uncertainty
Quantification [3.175239447683357]
本稿では、摂動支援サンプル合成(PASS)法により生成された合成データを利用した新しい摂動支援推論(PAI)フレームワークを提案する。
このフレームワークは、複雑なデータシナリオ、特に非構造化データの不確実性定量化に焦点を当てている。
我々は、画像合成、感情語分析、マルチモーダル推論、予測区間の構築など、様々な分野に適用することで、複雑なデータ駆動タスクにおける不確実性定量化を推し進める上で、PAIの有効性を実証する。
論文 参考訳(メタデータ) (2023-05-30T01:01:36Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Deceive D: Adaptive Pseudo Augmentation for GAN Training with Limited
Data [125.7135706352493]
GAN(Generative Adversarial Network)は、高忠実度画像を合成するために、訓練に十分なデータを必要とする。
近年の研究では、差別者の過度な適合により、限られたデータでGANを訓練することは困難であることが示されている。
本稿では,APA (Adaptive Pseudo Augmentation) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T18:13:45Z) - Accuracy on the Line: On the Strong Correlation Between
Out-of-Distribution and In-Distribution Generalization [89.73665256847858]
分布外性能は,広範囲なモデルと分布シフトに対する分布内性能と強く相関していることを示す。
具体的には,CIFAR-10 と ImageNet の変種に対する分布内分布と分布外分布性能の強い相関関係を示す。
また,CIFAR-10-Cと組織分類データセットCamelyon17-WILDSの合成分布の変化など,相関が弱いケースについても検討した。
論文 参考訳(メタデータ) (2021-07-09T19:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。