論文の概要: Stylized Structural Patterns for Improved Neural Network Pre-training
- arxiv url: http://arxiv.org/abs/2506.19465v1
- Date: Tue, 24 Jun 2025 09:47:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.576026
- Title: Stylized Structural Patterns for Improved Neural Network Pre-training
- Title(参考訳): 改良型ニューラルネットワーク事前学習のためのスティル化構造パターン
- Authors: Farnood Salehi, Vandit Sharma, Amirhossein Askari Farsangi, Tunç Ozan Aydın,
- Abstract要約: コンピュータビジョンにおけるディープラーニングモデルは、実際の画像の大規模なデータセットを必要とする。
最近の研究では、合成データが代替として提案されているが、訓練されたモデルはしばしば性能が劣っている。
そこで我々は,新しい種類の合成データを導入し,改良されたニューラルフラクタル定式化を提案する。
第二に,視覚的特徴を,ライセンスのない小さな実画像から合成データセットへ伝達する手法であるリバースススタイリングを提案する。
- 参考スコア(独自算出の注目度): 1.8641315013048299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern deep learning models in computer vision require large datasets of real images, which are difficult to curate and pose privacy and legal concerns, limiting their commercial use. Recent works suggest synthetic data as an alternative, yet models trained with it often underperform. This paper proposes a two-step approach to bridge this gap. First, we propose an improved neural fractal formulation through which we introduce a new class of synthetic data. Second, we propose reverse stylization, a technique that transfers visual features from a small, license-free set of real images onto synthetic datasets, enhancing their effectiveness. We analyze the domain gap between our synthetic datasets and real images using Kernel Inception Distance (KID) and show that our method achieves a significantly lower distributional gap compared to existing synthetic datasets. Furthermore, our experiments across different tasks demonstrate the practical impact of this reduced gap. We show that pretraining the EDM2 diffusion model on our synthetic dataset leads to an 11% reduction in FID during image generation, compared to models trained on existing synthetic datasets, and a 20% decrease in autoencoder reconstruction error, indicating improved performance in data representation. Furthermore, a ViT-S model trained for classification on this synthetic data achieves over a 10% improvement in ImageNet-100 accuracy. Our work opens up exciting possibilities for training practical models when sufficiently large real training sets are not available.
- Abstract(参考訳): コンピュータビジョンにおける現代のディープラーニングモデルは、実際の画像の大規模なデータセットを必要とする。
最近の研究では、合成データが代替として提案されているが、訓練されたモデルはしばしば性能が劣っている。
本稿では,このギャップを埋める2段階のアプローチを提案する。
まず、新しい種類の合成データを導入し、改良されたニューラルフラクタル定式化を提案する。
第2に,視覚的特徴をライセンスなしの小さな実画像集合から合成データセットへ転送する手法であるリバースススタイライゼーションを提案し,その効果を高める。
我々は,Kernel Inception Distance (KID) を用いて,我々の合成データセットと実画像との領域ギャップを解析し,既存の合成データセットと比較して分布ギャップが著しく低いことを示す。
さらに、異なるタスクに対する我々の実験は、このギャップ削減の実践的な影響を実証している。
合成データセット上でのEDM2拡散モデルの事前学習は、既存の合成データセットで訓練されたモデルと比較して、画像生成中にFIDが11%減少し、オートエンコーダ再構成エラーが20%減少し、データ表現の性能が向上したことを示す。
さらに、この合成データに基づく分類のために訓練されたViT-Sモデルは、ImageNet-100の精度を10%以上改善する。
我々の研究は、十分に大きな実際のトレーニングセットが利用できない場合に、実用的なモデルをトレーニングするためのエキサイティングな可能性を開く。
関連論文リスト
- DataDream: Few-shot Guided Dataset Generation [90.09164461462365]
実データ分布をより忠実に表現する分類データセットを合成するためのフレームワークを提案する。
DataDream fine-tunes LoRA weights for the image generation model on the few real image before generated the training data using the adapt model。
次に、合成データを用いてCLIPのLoRA重みを微調整し、様々なデータセットに対する以前のアプローチよりも下流画像の分類を改善する。
論文 参考訳(メタデータ) (2024-07-15T17:10:31Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Scaling Laws of Synthetic Images for Model Training ... for Now [54.43596959598466]
本研究では, 合成画像のスケーリング法則について, テクスト・ツー・イメージ・モデルの現状から検討した。
合成画像は、CLIPトレーニングの実際の画像と似ているが、やや効果の低いスケーリング傾向を示す。
論文 参考訳(メタデータ) (2023-12-07T18:59:59Z) - Improving the Effectiveness of Deep Generative Data [5.856292656853396]
下流の画像処理タスクのための純粋合成画像のモデルを訓練すると、実際のデータに対するトレーニングに比べ、望ましくない性能低下が生じる。
本稿では,この現象に寄与する要因を記述した新しい分類法を提案し,CIFAR-10データセットを用いて検討する。
本手法は,合成データと合成データの混合による学習と合成データのみの学習において,下流分類タスクのベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-07T12:57:58Z) - Image Captions are Natural Prompts for Text-to-Image Models [53.529592120988]
テキストから画像への生成モデルでは,手作りのプロンプトで情報学習データを合成することは困難である。
我々は,ImageNet分類によって検証された,シンプルで効果的な手法を提案する。
この単純なキャプションは,合成データの情報性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-07-17T14:38:11Z) - Synthetic Image Data for Deep Learning [0.294944680995069]
3次元モデルからレンダリングされたリアルな合成画像データを使用して、画像集合を拡大し、画像分類セグメンテーションモデルを訓練することができる。
実車の生産3次元CADモデルに基づく大規模合成データセットを,高品質な物理ベースレンダリングとドメインランダム化により効率的に作成できることを示す。
論文 参考訳(メタデータ) (2022-12-12T20:28:13Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。