論文の概要: Synthetic Data Generation for Augmenting Small Samples
- arxiv url: http://arxiv.org/abs/2501.18741v1
- Date: Thu, 30 Jan 2025 20:44:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:04:01.368735
- Title: Synthetic Data Generation for Augmenting Small Samples
- Title(参考訳): 小型サンプル増強のための合成データ生成
- Authors: Dan Liu, Samer El Kababji, Nicholas Mitsakakis, Lisa Pilgram, Thomas Walters, Mark Clemons, Greg Pond, Alaa El-Hussuna, Khaled El Emam,
- Abstract要約: 拡張はサンプルサイズを増大させ、小さなデータセットのサイズを増大させる正規化の一形態と見なされる。
我々は,拡張が有用かどうかをアナリストに知らせるための意思決定支援モデルを開発した。
- 参考スコア(独自算出の注目度): 3.23224703751729
- License:
- Abstract: Small datasets are common in health research. However, the generalization performance of machine learning models is suboptimal when the training datasets are small. To address this, data augmentation is one solution. Augmentation increases sample size and is seen as a form of regularization that increases the diversity of small datasets, leading them to perform better on unseen data. We found that augmentation improves prognostic performance for datasets that: have fewer observations, with smaller baseline AUC, have higher cardinality categorical variables, and have more balanced outcome variables. No specific generative model consistently outperformed the others. We developed a decision support model that can be used to inform analysts if augmentation would be useful. For seven small application datasets, augmenting the existing data results in an increase in AUC between 4.31% (AUC from 0.71 to 0.75) and 43.23% (AUC from 0.51 to 0.73), with an average 15.55% relative improvement, demonstrating the nontrivial impact of augmentation on small datasets (p=0.0078). Augmentation AUC was higher than resampling only AUC (p=0.016). The diversity of augmented datasets was higher than the diversity of resampled datasets (p=0.046).
- Abstract(参考訳): 小さなデータセットは健康研究で一般的である。
しかし、トレーニングデータセットが小さい場合、機械学習モデルの一般化性能は最適以下である。
これを解決するために、データ拡張は一つの解決策である。
Augmentationはサンプルのサイズを増大させ、小さなデータセットの多様性を高める正規化の一形態と見なされる。
その結果, AUC が小さく, 基線が小さく, 濃度のカテゴリー変数が高い, バランスの取れた結果変数がより少ない, データセットの予測性能が向上することがわかった。
特定の生成モデルは、他のモデルよりも一貫して優れていた。
我々は,拡張が有用かどうかをアナリストに知らせるための意思決定支援モデルを開発した。
7つの小さなアプリケーションデータセットに対して、既存のデータの増加は、AUCの4.31%(AUC:0.71から0.75)から43.23%(AUC:0.51から0.73)の間で増加し、平均15.55%の相対的な改善をもたらし、小さなデータセットに対する拡張の非自明な影響を示す(p=0.0078)。
拡張AUCはAUCのみを再サンプリングする(p=0.016。
拡張データセットの多様性は再サンプリングデータセットの多様性よりも高かった(p=0.046)。
関連論文リスト
- Data Augmentation for Image Classification using Generative AI [8.74488498507946]
データ拡張はデータセットのサイズを拡大するための有望なソリューションである。
最近のアプローチでは、生成AIモデルを使用してデータセットの多様性を改善している。
我々はAGA(Automated Generative Data Augmentation)を提案する。
論文 参考訳(メタデータ) (2024-08-31T21:16:43Z) - Generative Expansion of Small Datasets: An Expansive Graph Approach [13.053285552524052]
最小限のサンプルから大規模で情報豊富なデータセットを生成する拡張合成モデルを提案する。
自己アテンション層と最適なトランスポートを持つオートエンコーダは、分散一貫性を洗練させる。
結果は同等のパフォーマンスを示し、モデルがトレーニングデータを効果的に増強する可能性を示している。
論文 参考訳(メタデータ) (2024-06-25T02:59:02Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - DualAug: Exploiting Additional Heavy Augmentation with OOD Data
Rejection [77.6648187359111]
そこで本稿では,textbfDualAug という新しいデータ拡張手法を提案する。
教師付き画像分類ベンチマークの実験では、DualAugは様々な自動データ拡張法を改善している。
論文 参考訳(メタデータ) (2023-10-12T08:55:10Z) - Dynamic Data Augmentation via MCTS for Prostate MRI Segmentation [19.780410411548935]
本稿ではDDAug(Dynamic Data Augmentation)を提案する。
DDAug計算は、様々な拡張を表現する階層木構造を開発する。
我々の手法は、現在の最先端データ拡張戦略より優れています。
論文 参考訳(メタデータ) (2023-05-25T06:44:43Z) - Data-Efficient Augmentation for Training Neural Networks [15.870155099135538]
本稿では,データポイントのサブセットを選択するための厳密な手法を提案する。
SVHNのCIFAR10では6.3倍,SVHNでは2.2倍の高速化を実現し,様々なサブセットサイズでベースラインを最大10%向上させる。
論文 参考訳(メタデータ) (2022-10-15T19:32:20Z) - Augmentation-Aware Self-Supervision for Data-Efficient GAN Training [68.81471633374393]
識別器が過度に適合する傾向があるため、限られたデータでGANを訓練することは困難である。
本稿では,拡張データの拡張パラメータを予測する,拡張型自己教師型識別器を提案する。
本稿では,クラス条件の BigGAN と非条件の StyleGAN2 アーキテクチャを用いた State-of-the-art (SOTA) 手法と比較する。
論文 参考訳(メタデータ) (2022-05-31T10:35:55Z) - LiDAR dataset distillation within bayesian active learning framework:
Understanding the effect of data augmentation [63.20765930558542]
アクティブラーニング(AL)は、アノテーションコストとデータセットサイズの削減に対処するため、最近再び注目されている。
本稿では,大規模なセマンティックKITTIデータセットの1/4分の1でALベースのデータセット蒸留を原理的に評価する。
我々は、選択したデータセット構成からのサンプルの60%のみを使用して、データ拡張が完全なデータセット精度を達成することを観察した。
論文 参考訳(メタデータ) (2022-02-06T00:04:21Z) - DecAug: Augmenting HOI Detection via Decomposition [54.65572599920679]
現在のアルゴリズムでは、データセット内のトレーニングサンプルやカテゴリの不均衡が不足している。
本稿では,HOI検出のためのDECAugと呼ばれる効率的かつ効率的なデータ拡張手法を提案する。
実験の結果,V-COCOおよびHICODETデータセットの3.3mAPと1.6mAPの改善が得られた。
論文 参考訳(メタデータ) (2020-10-02T13:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。