論文の概要: Peer is Your Pillar: A Data-unbalanced Conditional GANs for Few-shot
Image Generation
- arxiv url: http://arxiv.org/abs/2311.08217v1
- Date: Tue, 14 Nov 2023 14:55:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 13:34:46.741610
- Title: Peer is Your Pillar: A Data-unbalanced Conditional GANs for Few-shot
Image Generation
- Title(参考訳): ピラー画像生成のためのデータアンバランスな条件付きGAN
- Authors: Ziqiang Li, Chaoyue Wang, Xue Rui, Chao Xue, Jiaxu Leng, and Bin Li
- Abstract要約: 少ない撮影画像生成は、少数の訓練画像を用いて生成モデルを訓練することを目的としている。
我々はPier is your Pillar(PIP)と呼ばれる新しいパイプラインを提案し、ターゲットとする数ショットデータセットとピアデータセットを組み合わせて、データ不均衡な条件生成を生成する。
- 参考スコア(独自算出の注目度): 24.698516678703236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot image generation aims to train generative models using a small
number of training images. When there are few images available for training
(e.g. 10 images), Learning From Scratch (LFS) methods often generate images
that closely resemble the training data while Transfer Learning (TL) methods
try to improve performance by leveraging prior knowledge from GANs pre-trained
on large-scale datasets. However, current TL methods may not allow for
sufficient control over the degree of knowledge preservation from the source
model, making them unsuitable for setups where the source and target domains
are not closely related. To address this, we propose a novel pipeline called
Peer is your Pillar (PIP), which combines a target few-shot dataset with a peer
dataset to create a data-unbalanced conditional generation. Our approach
includes a class embedding method that separates the class space from the
latent space, and we use a direction loss based on pre-trained CLIP to improve
image diversity. Experiments on various few-shot datasets demonstrate the
advancement of the proposed PIP, especially reduces the training requirements
of few-shot image generation.
- Abstract(参考訳): 少ない撮影画像生成は、少数の訓練画像を用いて生成モデルを訓練することを目的としている。
トレーニング用に利用可能なイメージ(例:10イメージ)が少ない場合、Learning From Scratch(LFS)メソッドはトレーニングデータによく似たイメージを生成することが多いが、Transfer Learning(TL)メソッドは大規模なデータセットで事前トレーニングされたGANからの事前知識を活用してパフォーマンスを向上させる。
しかし、現在のTL法では、ソースモデルからの知識保存の程度を十分に制御することができず、ソースドメインとターゲットドメインが密接に関連していない設定には適さない。
これを解決するために、ターゲットとする数ショットデータセットとピアデータセットを組み合わせて、データ不均衡な条件生成を生成する、Peer is your Pillar(PIP)と呼ばれる新しいパイプラインを提案する。
提案手法は,クラス空間と潜在空間を分離するクラス埋め込みメソッドを含み,事前学習したクリップに基づく方向損失を用いて画像の多様性を向上させる。
様々な少数ショットデータセットの実験では、提案したPIPの進歩が示され、特に少数ショット画像生成のトレーニング要件が減少する。
関連論文リスト
- DataDream: Few-shot Guided Dataset Generation [90.09164461462365]
実データ分布をより忠実に表現する分類データセットを合成するためのフレームワークを提案する。
DataDream fine-tunes LoRA weights for the image generation model on the few real image before generated the training data using the adapt model。
次に、合成データを用いてCLIPのLoRA重みを微調整し、様々なデータセットに対する以前のアプローチよりも下流画像の分類を改善する。
論文 参考訳(メタデータ) (2024-07-15T17:10:31Z) - No Data Augmentation? Alternative Regularizations for Effective Training
on Small Datasets [0.0]
我々は、小さな画像分類データセットにおける教師あり学習の限界を推し進めるために、代替正規化戦略について研究する。
特に,モデルパラメータのノルムを通した最適学習率と重み減衰対の選択に非依存を用いる。
テスト精度は66.5%に達し、最先端の手法に匹敵する。
論文 参考訳(メタデータ) (2023-09-04T16:13:59Z) - Training on Thin Air: Improve Image Classification with Generated Data [28.96941414724037]
Diffusion Inversionは、画像分類のための多種多様な高品質なトレーニングデータを生成するための、シンプルで効果的な方法である。
提案手法は,元のデータ分布を捕捉し,画像を安定拡散の潜在空間に反転させることにより,データカバレッジを確保する。
生成した画像が元のデータセットに取って代わることに成功した3つの重要なコンポーネントを特定します。
論文 参考訳(メタデータ) (2023-05-24T16:33:02Z) - Multimodal Data Augmentation for Image Captioning using Diffusion Models [12.221685807426264]
本研究では,Stable Diffusionと呼ばれるテキスト・ツー・イメージ・モデルを利用してトレーニングセットを拡張するデータ拡張手法を提案する。
MS COCOデータセットの実験は、いくつかのベンチマーク手法に対する我々のアプローチの利点を実証している。
生成されたデータを意図的にフィルタリングした後、トレーニング効率及び有効性に関するさらなる改善が得られる。
論文 参考訳(メタデータ) (2023-05-03T01:57:33Z) - CSP: Self-Supervised Contrastive Spatial Pre-Training for
Geospatial-Visual Representations [90.50864830038202]
ジオタグ付き画像の自己教師型学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案する。
デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト目的を用いて画像から効果的な位置表現を学習する。
CSPは、様々なラベル付きトレーニングデータサンプリング比と10~34%の相対的な改善で、モデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-01T23:11:18Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - Feature transforms for image data augmentation [74.12025519234153]
画像分類において、多くの拡張アプローチは単純な画像操作アルゴリズムを利用する。
本研究では,14種類の拡張アプローチを組み合わせて生成した画像を追加することで,データレベルでのアンサンブルを構築する。
事前トレーニングされたResNet50ネットワークは、各拡張メソッドから派生した画像を含むトレーニングセットに基づいて微調整される。
論文 参考訳(メタデータ) (2022-01-24T14:12:29Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - Self-Supervised Generative Style Transfer for One-Shot Medical Image
Segmentation [10.634870214944055]
医用画像のセグメンテーションにおいて、教師付きディープネットワークの成功は、豊富なラベル付きデータを必要とするコストが伴う。
本稿では,ボリューム画像分割ペアを合成可能なデータ拡張のための,新しいボリューム自己教師型学習法を提案する。
我々の研究の中心的信条は、ワンショット生成学習と自己指導型学習戦略の併用による恩恵を受けている。
論文 参考訳(メタデータ) (2021-10-05T15:28:42Z) - Multiclass non-Adversarial Image Synthesis, with Application to
Classification from Very Small Sample [6.243995448840211]
我々は、新しい非逆生成法 - LA(Clustered Optimization of LAtent space)を提案する。
本手法は,全データレギュレーションにおいて,教師なしの多様なマルチクラス画像を生成することができる。
ラベル付き画像の小さなサンプルのみが、追加のラベル付きデータにアクセスせずにトレーニングできる小データ体制では、同じ量のデータでトレーニングされた最先端のGANモデルを上回る結果が得られる。
論文 参考訳(メタデータ) (2020-11-25T18:47:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。