論文の概要: Few-Shot Synthetic Data Generation with Diffusion Models for Downstream Vision Tasks
- arxiv url: http://arxiv.org/abs/2605.11898v1
- Date: Tue, 12 May 2026 10:11:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.788064
- Title: Few-Shot Synthetic Data Generation with Diffusion Models for Downstream Vision Tasks
- Title(参考訳): 下流視覚課題のための拡散モデルを用いたFew-Shot合成データ生成
- Authors: Daniil Dushenev, Nazariy Karpov, Daniil Zinovjev, Alexander Gorin, Konstantin Kulikov,
- Abstract要約: クラス不均衡は視覚認識において永続的な課題である。
稀なクラスの20~50個の実画像にLoRAアダプタを微調整する,軽量な合成データ拡張パイプラインを提案する。
- 参考スコア(独自算出の注目度): 36.94429692322632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Class imbalance is a persistent challenge in visual recognition, particularly in safety-critical domains where collecting positive examples is expensive and rare events are inherently underrepresented. We propose a lightweight synthetic data augmentation pipeline that fine-tunes a LoRA adapter on as few as 20-50 real images of a rare class and uses a pretrained diffusion model to generate synthetic samples for training. We systematically vary the synthetic-to-real ratio and evaluate the approach across two structurally different domains: chest X-ray pathology classification (NIH ChestX-ray14) and industrial surface crack detection (Magnetic Tile Defect dataset). All evaluations are performed on held-out sets of real images only. Across both domains, synthetic augmentation consistently improves rare-class recall and F1 compared to training with real data alone. Performance improves with moderate synthetic augmentation and shows diminishing returns as the synthetic ratio increases. These results suggest that LoRA-adapted diffusion models provide a simple and scalable mechanism for augmenting rare classes, enabling effective learning in data-scarce scenarios across heterogeneous visual domains.
- Abstract(参考訳): クラス不均衡は、特にポジティブな事例の収集が高価であり、まれな出来事が本質的にあまり表現されない安全クリティカルな領域において、視覚的認識において永続的な課題である。
我々は,LoRAアダプタを20~50個のレアクラスの実画像に微調整し,事前学習した拡散モデルを用いて,合成サンプルを訓練用に生成する,軽量な合成データ拡張パイプラインを提案する。
胸部X線病理分類法 (NIH ChestX-ray14) と工業用表面き裂検出法 (Magnetic Tile Defect dataset) の2分野にまたがって, 合成と実比を体系的に変化させ, アプローチの評価を行った。
全ての評価は実画像のみの保持セットで行われる。
両方の領域にまたがって、合成強化は、実データ単独でのトレーニングと比較して、レアクラスのリコールとF1を一貫して改善する。
適度な合成増強により性能が向上し、合成比が増加するにつれてリターンが低下する。
これらの結果から,LoRA適応拡散モデルにより,レアクラスを拡大するためのシンプルでスケーラブルなメカニズムが得られ,不均一な視覚領域をまたいだデータスカースシナリオの効果的な学習が可能になることが示唆された。
関連論文リスト
- Towards Syn-to-Real IQA: A Novel Perspective on Reshaping Synthetic Data Distributions [74.00222571094437]
Blind Image Quality Assessment (BIQA)はディープラーニングを通じて大幅に進歩しているが、大規模なラベル付きデータセットの不足は依然として課題である。
合成データセットから学習した表現は、しばしば回帰性能を妨げる離散的かつクラスタ化されたパターンを示す。
本稿では,BIQAの一般化を促進するために,合成データ分布を再考する新しいフレームワークであるSynDR-IQAを紹介する。
論文 参考訳(メタデータ) (2026-01-01T06:11:16Z) - Towards Application Aligned Synthetic Surgical Image Synthesis [3.1373284090264857]
下流モデルで好まれるサンプルと拡散モデルを整合させる新しいフレームワークであるemphSurgical Application-Aligned Diffusion (SAADi)を紹介する。
提案手法では, 画像生成過程を下流の目的と明確に整合させるために, 拡散モデルの微調整を軽量に行う。
論文 参考訳(メタデータ) (2025-09-23T08:40:40Z) - Improving Heart Rejection Detection in XPCI Images Using Synthetic Data Augmentation [0.0]
StyleGANは利用可能な3Rバイオプシーパッチで訓練され、その後、1万のリアルな合成画像を生成するために使用された。
これらは、ResNet-18分類器をバイナリーリジェクション分類のために訓練するための様々な構成において、レジェクション無しのサンプルである実際の0Rサンプルと組み合わせられた。
その結果, 実検体と組み合わせて使用する場合, 合成データにより分類性能が向上することが示唆された。
論文 参考訳(メタデータ) (2025-05-26T09:26:36Z) - SAU: A Dual-Branch Network to Enhance Long-Tailed Recognition via Generative Models [9.340077455871736]
画像認識における長い尾の分布は、いくつかの支配階級間の深刻な不均衡のため、大きな課題となる。
近年,画像分類のための合成データ作成に大規模な生成モデルが用いられている。
本稿では,データ不均衡の影響を解消するために,長い尾のデータセットを補完する合成データを提案する。
論文 参考訳(メタデータ) (2024-08-29T05:33:59Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Derm-T2IM: Harnessing Synthetic Skin Lesion Data via Stable Diffusion
Models for Enhanced Skin Disease Classification using ViT and CNN [1.0499611180329804]
我々は、最近の数発学習の成功を拡大して、拡張されたデータ変換技術を統合することを目指している。
最先端機械学習モデルのトレーニングパイプラインに新たに生成された合成データを組み込むことによる影響について検討する。
論文 参考訳(メタデータ) (2024-01-10T13:46:03Z) - UAV-Sim: NeRF-based Synthetic Data Generation for UAV-based Perception [62.71374902455154]
ニューラルレンダリングの最近の進歩を利用して、静的および動的ノベルビューUAVベースの画像レンダリングを改善する。
本研究では,主に実データと合成データのハイブリッドセットに基づいて最先端検出モデルが最適化された場合,性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-25T00:20:37Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Adversarial Feature Hallucination Networks for Few-Shot Learning [84.31660118264514]
Adversarial Feature Hallucination Networks (AFHN) は条件付き Wasserstein Generative Adversarial Network (cWGAN) に基づいている。
合成された特徴の識別性と多様性を促進するために、2つの新規レギュレータがAFHNに組み込まれている。
論文 参考訳(メタデータ) (2020-03-30T02:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。