論文の概要: Expansive Synthesis: Generating Large-Scale Datasets from Minimal Samples
- arxiv url: http://arxiv.org/abs/2406.17238v1
- Date: Tue, 25 Jun 2024 02:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 16:01:10.831035
- Title: Expansive Synthesis: Generating Large-Scale Datasets from Minimal Samples
- Title(参考訳): 拡張的合成:最小サンプルから大規模データセットを生成する
- Authors: Vahid Jebraeeli, Bo Jiang, Hamid Krim, Derya Cansever,
- Abstract要約: 本稿では,最小限のサンプルから高忠実度データセットを生成する革新的な拡張合成モデルを提案する。
生成したデータセットの分類器をトレーニングし,より大規模でオリジナルなデータセットでトレーニングされたパフォーマンストリバーサを比較して,拡張的合成を検証する。
- 参考スコア(独自算出の注目度): 13.053285552524052
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The challenge of limited availability of data for training in machine learning arises in many applications and the impact on performance and generalization is serious. Traditional data augmentation methods aim to enhance training with a moderately sufficient data set. Generative models like Generative Adversarial Networks (GANs) often face problematic convergence when generating significant and diverse data samples. Diffusion models, though effective, still struggle with high computational cost and long training times. This paper introduces an innovative Expansive Synthesis model that generates large-scale, high-fidelity datasets from minimal samples. The proposed approach exploits expander graph mappings and feature interpolation to synthesize expanded datasets while preserving the intrinsic data distribution and feature structural relationships. The rationale of the model is rooted in the non-linear property of neural networks' latent space and in its capture by a Koopman operator to yield a linear space of features to facilitate the construction of larger and enriched consistent datasets starting with a much smaller dataset. This process is optimized by an autoencoder architecture enhanced with self-attention layers and further refined for distributional consistency by optimal transport. We validate our Expansive Synthesis by training classifiers on the generated datasets and comparing their performance to classifiers trained on larger, original datasets. Experimental results demonstrate that classifiers trained on synthesized data achieve performance metrics on par with those trained on full-scale datasets, showcasing the model's potential to effectively augment training data. This work represents a significant advancement in data generation, offering a robust solution to data scarcity and paving the way for enhanced data availability in machine learning applications.
- Abstract(参考訳): 機械学習におけるトレーニング用データの限られた可用性の課題は多くのアプリケーションで発生し、パフォーマンスと一般化への影響は深刻である。
従来のデータ拡張手法は、適度に十分なデータセットでトレーニングを強化することを目的としている。
GAN(Generative Adversarial Networks)のような生成モデルは、重要で多様なデータサンプルを生成する際に、しばしば問題のある収束に直面します。
拡散モデルは有効ではあるが、高い計算コストと長い訓練時間に苦戦している。
本稿では,最小限のサンプルから大規模かつ高忠実なデータセットを生成する,革新的な拡張合成モデルを提案する。
提案手法は拡張グラフマッピングと特徴補間を利用して拡張データセットを合成し、本質的なデータ分布と特徴構造関係を保存する。
このモデルの理論的根拠は、ニューラルネットワークの潜在空間の非線形的性質と、Koopman演算子による捕捉に根ざし、より小さなデータセットから始まり、より大きく、よりリッチな一貫性のあるデータセットの構築を容易にするために、機能の線形空間を生成する。
このプロセスは自己アテンション層で拡張されたオートエンコーダアーキテクチャによって最適化され、最適輸送により分散一貫性が向上する。
生成したデータセット上の分類器を訓練し、その性能を、大規模でオリジナルなデータセットで訓練された分類器と比較することにより、拡張的合成を検証する。
実験により、合成データに基づいてトレーニングされた分類器は、フルスケールデータセットでトレーニングされたものと同等のパフォーマンス指標を達成し、トレーニングデータを効果的に増強するモデルの可能性を実証した。
この作業は、データの不足に対する堅牢なソリューションを提供し、マシンラーニングアプリケーションにおけるデータ可用性向上の道を開く、データ生成の大幅な進歩を表している。
関連論文リスト
- zGAN: An Outlier-focused Generative Adversarial Network For Realistic Synthetic Data Generation [0.0]
ブラックスワン」は古典的な機械学習モデルの性能に挑戦している。
本稿では、外部特性を持つ合成データを生成する目的で開発されたzGANモデルアーキテクチャの概要について述べる。
リアルな合成データ生成の有望な結果と、モデル性能のアップリフト能力を示す。
論文 参考訳(メタデータ) (2024-10-28T07:55:11Z) - Koopcon: A new approach towards smarter and less complex learning [13.053285552524052]
ビッグデータの時代、データセットの膨大な量と複雑さは、機械学習において大きな課題を引き起こします。
本稿では,クープマン演算子理論を背景とした,革新的オートエンコーダに基づくデータセット凝縮モデルを提案する。
人間の脳の予測的コーディング機構にインスパイアされた我々のモデルは、データをエンコードし再構成するための新しいアプローチを活用する。
論文 参考訳(メタデータ) (2024-05-22T17:47:14Z) - DiverGen: Improving Instance Segmentation by Learning Wider Data Distribution with More Diverse Generative Data [48.31817189858086]
生成データは、モデルが学習できるデータ分布を拡大し、過剰適合を軽減できると主張している。
DiverGenは強力なX-Pasteよりも優れており、すべてのカテゴリで+1.1ボックスAPと+1.1マスクAPを達成でき、まれなカテゴリでは+1.9ボックスAPと+2.5マスクAPを達成できる。
論文 参考訳(メタデータ) (2024-05-16T15:30:18Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Scalable Modular Synthetic Data Generation for Advancing Aerial Autonomy [2.9005223064604078]
本稿では,自律飛行に適したスケーラブルなAerial Synthetic Data Augmentation (ASDA) フレームワークを提案する。
ASDAは、シーンとデータ拡張を自動的に実行する2つのスクリプト可能なパイプラインを備えた中央データ収集エンジンを拡張している。
多様なデータセットを自動生成する手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-10T04:37:41Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。