論文の概要: Boosting Statistic Learning with Synthetic Data from Pretrained Large Models
- arxiv url: http://arxiv.org/abs/2505.04992v1
- Date: Thu, 08 May 2025 06:55:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.778375
- Title: Boosting Statistic Learning with Synthetic Data from Pretrained Large Models
- Title(参考訳): 事前学習された大規模モデルからの合成データによる統計学習の促進
- Authors: Jialong Jiang, Wenkang Hu, Jian Huang, Yuling Jiao, Xu Liu,
- Abstract要約: 本稿では,ドメイン固有の統計的手法を用いて合成データを生成し,体系的にフィルタリングする新しいエンドツーエンドフレームワークを提案する。
実験では,様々な設定で予測性能が一貫した改善を示した。
- 参考スコア(独自算出の注目度): 6.596689283714373
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid advancement of generative models, such as Stable Diffusion, raises a key question: how can synthetic data from these models enhance predictive modeling? While they can generate vast amounts of datasets, only a subset meaningfully improves performance. We propose a novel end-to-end framework that generates and systematically filters synthetic data through domain-specific statistical methods, selectively integrating high-quality samples for effective augmentation. Our experiments demonstrate consistent improvements in predictive performance across various settings, highlighting the potential of our framework while underscoring the inherent limitations of generative models for data augmentation. Despite the ability to produce large volumes of synthetic data, the proportion that effectively improves model performance is limited.
- Abstract(参考訳): 安定拡散(Stable Diffusion)のような生成モデルの急速な進歩は、重要な疑問を提起する。
大量のデータセットを生成することができるが、パフォーマンスを向上しているのはサブセットのみである。
ドメイン固有の統計的手法により合成データを生成・体系的にフィルタリングし,高品質なサンプルを選択的に統合して効果的な拡張を行う,新しいエンドツーエンドフレームワークを提案する。
実験では,データ拡張のための生成モデル固有の制約を強調しながら,予測性能を様々な設定で一貫した改善し,フレームワークの可能性を強調した。
大量の合成データを生成できるにもかかわらず、モデル性能を効果的に向上させる割合は限られている。
関連論文リスト
- Prototype-Guided Diffusion for Digital Pathology: Achieving Foundation Model Performance with Minimal Clinical Data [6.318463500874778]
本研究では,高忠実度合成病理データを大規模に生成するプロトタイプ誘導拡散モデルを提案する。
我々のアプローチは、生成したデータの生物学的、診断学的に有意義な変動を保証します。
我々は、大規模な実世界のデータセットでトレーニングされたモデルよりも60倍-760倍少ないデータを使用しても、我々の合成データセットでトレーニングされた自己教師機能によって競争性能が向上することを示した。
論文 参考訳(メタデータ) (2025-04-15T21:17:39Z) - Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Private Synthetic Data Meets Ensemble Learning [15.425653946755025]
機械学習モデルが合成データに基づいてトレーニングされ、実際のデータにデプロイされると、しばしばパフォーマンス低下が発生する。
実データを用いた場合のパフォーマンス向上を目標として,下流モデルのトレーニングのための新たなアンサンブル戦略を導入する。
論文 参考訳(メタデータ) (2023-10-15T04:24:42Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。