論文の概要: Long Tail Image Generation Through Feature Space Augmentation and Iterated Learning
- arxiv url: http://arxiv.org/abs/2405.01705v1
- Date: Thu, 2 May 2024 20:03:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 14:34:45.228628
- Title: Long Tail Image Generation Through Feature Space Augmentation and Iterated Learning
- Title(参考訳): 特徴空間拡張と反復学習によるロングテール画像生成
- Authors: Rafael Elberg, Denis Parra, Mircea Petrache,
- Abstract要約: 本稿では,事前学習した安定拡散モデルのリッチ潜時空間を活用することで,長期データにおける画像拡張手法を提案する。
K-NNアプローチによるタスク固有の相性マップに適用する。
- 参考スコア(独自算出の注目度): 0.7578439720012189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image and multimodal machine learning tasks are very challenging to solve in the case of poorly distributed data. In particular, data availability and privacy restrictions exacerbate these hurdles in the medical domain. The state of the art in image generation quality is held by Latent Diffusion models, making them prime candidates for tackling this problem. However, a few key issues still need to be solved, such as the difficulty in generating data from under-represented classes and a slow inference process. To mitigate these issues, we propose a new method for image augmentation in long-tailed data based on leveraging the rich latent space of pre-trained Stable Diffusion Models. We create a modified separable latent space to mix head and tail class examples. We build this space via Iterated Learning of underlying sparsified embeddings, which we apply to task-specific saliency maps via a K-NN approach. Code is available at https://github.com/SugarFreeManatee/Feature-Space-Augmentation-and-Iterated-Learning
- Abstract(参考訳): 画像およびマルチモーダル機械学習タスクは、分散データが不十分な場合に非常に困難である。
特に、データの可用性とプライバシーの制限は、医療領域におけるこれらのハードルを悪化させます。
画像生成の品質の最先端は、Latent Diffusionモデルによって保持され、この問題に対処するための主要な候補となる。
しかし、未表現のクラスからデータを生成するのが難しいことや、推論プロセスが遅いことなど、いくつかの重要な問題がまだ解決する必要がある。
これらの問題を緩和するため,本稿では,事前学習した安定拡散モデルのリッチ潜在空間を活用することで,長期データにおける画像拡張手法を提案する。
我々は、頭と尾のクラスの例を混合するために、改良された分離可能なラテント空間を作成する。
K-NNアプローチによるタスク固有の相性マップに適用する。
コードはhttps://github.com/SugarFreeManatee/Feature-Space-Augmentation-and-Iterated-Learningで入手できる。
関連論文リスト
- Latent-based Diffusion Model for Long-tailed Recognition [10.410057703866899]
長い尾の不均衡分布は、実用的なコンピュータビジョンアプリケーションにおいて一般的な問題である。
そこで本稿では,Long-tailed Recognition (LDMLR) のための遅延型拡散モデル(Latent-based Diffusion Model for Long-tailed Recognition)を提案する。
モデルの精度は,提案手法を用いてCIFAR-LTおよびImageNet-LTデータセットの改善を示す。
論文 参考訳(メタデータ) (2024-04-06T06:15:07Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - GenSelfDiff-HIS: Generative Self-Supervision Using Diffusion for Histopathological Image Segmentation [5.049466204159458]
自己教師付き学習(SSL)は、注釈のないデータのみを利用するモデルを構築することで、いくつかの欠点を提供する代替パラダイムである。
本稿では,生成拡散モデルを用いて病理像をセグメント化するためのSSLアプローチを提案する。
本手法は,拡散モデルがセグメント化タスクに似た画像から画像への変換タスクを効果的に解くことに基づく。
論文 参考訳(メタデータ) (2023-09-04T09:49:24Z) - SDM: Spatial Diffusion Model for Large Hole Image Inpainting [106.90795513361498]
本稿では,空間拡散モデル(SDM)を提案する。
また,提案手法は非結合確率モデルと空間拡散スキームにより,高品質な大穴工法を実現する。
論文 参考訳(メタデータ) (2022-12-06T13:30:18Z) - Smoothing the Generative Latent Space with Mixup-based Distance Learning [32.838539968751924]
我々は、我々の関心の大規模なデータセットも、転送可能なソースデータセットも利用できない状況を考える。
本稿では,ジェネレータとディスクリミネータの両方の特徴空間における遅延混合に基づく距離正規化を提案する。
論文 参考訳(メタデータ) (2021-11-23T06:39:50Z) - Multi-Agent Semi-Siamese Training for Long-tail and Shallow Face
Learning [54.13876727413492]
多くの現実世界の顔認識シナリオでは、トレーニングデータセットの深さは浅いため、IDごとに2つの顔画像しか利用できません。
非均一なサンプルの増加により、このような問題はより一般的なケース、すなわち長い尾の顔学習に変換される。
これらの問題に対処するために,マルチエージェントセミシアントレーニング(masst)という高度なソリューションを導入する。
広範な実験と比較は、長い尾と浅い顔学習のためのMASSTの利点を示しています。
論文 参考訳(メタデータ) (2021-05-10T04:57:32Z) - ResLT: Residual Learning for Long-tailed Recognition [64.19728932445523]
本稿では,パラメータ空間の側面から,より基本的なロングテール認識の視点を提案する。
すべてのクラスから画像を認識するために最適化されたメインブランチと、medium+tailクラスとtailクラスからのイメージを強化するために徐々に2つの残りのブランチを融合して最適化する。
我々は、CIFAR-10、CIFAR-100、Places、ImageNet、iNaturalist 2018の長期バージョンであるいくつかのベンチマークでこの方法をテストする。
論文 参考訳(メタデータ) (2021-01-26T08:43:50Z) - IntroVAC: Introspective Variational Classifiers for Learning
Interpretable Latent Subspaces [6.574517227976925]
IntroVACは、追加ラベルから情報を活用することで、解釈可能な潜在部分空間を学習する。
IntroVACは、画像属性の微調整を可能にする潜在空間における意味のある方向を学習可能であることを示す。
論文 参考訳(メタデータ) (2020-08-03T10:21:41Z) - Neural Networks Are More Productive Teachers Than Human Raters: Active
Mixup for Data-Efficient Knowledge Distillation from a Blackbox Model [57.41841346459995]
我々は,ブラックボックス教師モデルから知識を抽出し,学生の深層ニューラルネットワークを視覚認識のために訓練する方法を,データ効率のよい方法で研究する。
混合学習とアクティブラーニングを融合した手法を提案する。
論文 参考訳(メタデータ) (2020-03-31T05:44:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。