論文の概要: Latent-based Diffusion Model for Long-tailed Recognition
- arxiv url: http://arxiv.org/abs/2404.04517v1
- Date: Sat, 6 Apr 2024 06:15:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 20:58:47.842212
- Title: Latent-based Diffusion Model for Long-tailed Recognition
- Title(参考訳): ロングテール認識のための潜時拡散モデル
- Authors: Pengxiao Han, Changkun Ye, Jieming Zhou, Jing Zhang, Jie Hong, Xuesong Li,
- Abstract要約: 長い尾の不均衡分布は、実用的なコンピュータビジョンアプリケーションにおいて一般的な問題である。
そこで本稿では,Long-tailed Recognition (LDMLR) のための遅延型拡散モデル(Latent-based Diffusion Model for Long-tailed Recognition)を提案する。
モデルの精度は,提案手法を用いてCIFAR-LTおよびImageNet-LTデータセットの改善を示す。
- 参考スコア(独自算出の注目度): 10.410057703866899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-tailed imbalance distribution is a common issue in practical computer vision applications. Previous works proposed methods to address this problem, which can be categorized into several classes: re-sampling, re-weighting, transfer learning, and feature augmentation. In recent years, diffusion models have shown an impressive generation ability in many sub-problems of deep computer vision. However, its powerful generation has not been explored in long-tailed problems. We propose a new approach, the Latent-based Diffusion Model for Long-tailed Recognition (LDMLR), as a feature augmentation method to tackle the issue. First, we encode the imbalanced dataset into features using the baseline model. Then, we train a Denoising Diffusion Implicit Model (DDIM) using these encoded features to generate pseudo-features. Finally, we train the classifier using the encoded and pseudo-features from the previous two steps. The model's accuracy shows an improvement on the CIFAR-LT and ImageNet-LT datasets by using the proposed method.
- Abstract(参考訳): 長い尾の不均衡分布は、実用的なコンピュータビジョンアプリケーションにおいて一般的な問題である。
従来の研究では、再サンプリング、再重み付け、転乗学習、機能拡張といういくつかのクラスに分類されるこの問題に対処する方法が提案されていた。
近年、拡散モデルは深層コンピュータビジョンの多くのサブプロブレムにおいて印象的な生成能力を示している。
しかし、その強力な世代は長い尾の問題では研究されていない。
本稿では,Long-tailed Recognition (LDMLR) のためのラテントベース拡散モデル(Latent-based Diffusion Model for Long-tailed Recognition, LMLR)を提案する。
まず、不均衡なデータセットをベースラインモデルを用いて特徴にエンコードする。
次に、これらの符号化された特徴を用いてDEM(Denoising Diffusion Implicit Model)を訓練し、擬似特徴を生成する。
最後に、前の2つのステップから符号化および擬似特徴を用いて分類器を訓練する。
モデルの精度は,提案手法を用いてCIFAR-LTおよびImageNet-LTデータセットの改善を示す。
関連論文リスト
- Model Integrity when Unlearning with T2I Diffusion Models [11.321968363411145]
「忘れ分布からのサンプルを特徴とする特定種類の画像の生成を減らすために、近似機械学習アルゴリズムを提案する。」
次に、既存のベースラインと比較してモデルの整合性を保つ上で優れた効果を示す未学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-04T13:15:28Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - LinFusion: 1 GPU, 1 Minute, 16K Image [71.44735417472043]
我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。
蒸留したLinFusionは,元のSDと同等以上の性能を示す。
SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
論文 参考訳(メタデータ) (2024-09-03T17:54:39Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Long Tail Image Generation Through Feature Space Augmentation and Iterated Learning [0.7578439720012189]
本稿では,事前学習した安定拡散モデルのリッチ潜時空間を活用することで,長期データにおける画像拡張手法を提案する。
K-NNアプローチによるタスク固有の相性マップに適用する。
論文 参考訳(メタデータ) (2024-05-02T20:03:19Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Fixed Point Diffusion Models [13.035518953879539]
FPDM(Fixed Point Diffusion Model)は、FPDM(Fixed Point Diffusion Model)の概念を拡散に基づく生成モデルに組み込んだ画像生成手法である。
提案手法では,拡散モデルのデノナイズネットワークに暗黙の固定点解法層を埋め込み,拡散過程を密接な関係のある固定点問題列に変換する。
我々は、ImageNet、FFHQ、CelebA-HQ、LSUN-Churchの最先端モデルを用いて実験を行い、性能と効率を大幅に改善した。
論文 参考訳(メタデータ) (2024-01-16T18:55:54Z) - Learning to Jump: Thinning and Thickening Latent Counts for Generative
Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。
ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文 参考訳(メタデータ) (2023-05-28T05:38:28Z) - Deep Generative model with Hierarchical Latent Factors for Time Series
Anomaly Detection [40.21502451136054]
本研究は、時系列異常検出のための新しい生成モデルであるDGHLを提示する。
トップダウンの畳み込みネットワークは、新しい階層的な潜在空間を時系列ウィンドウにマッピングし、時間ダイナミクスを利用して情報を効率的にエンコードする。
提案手法は,4つのベンチマーク・データセットにおいて,現在の最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-02-15T17:19:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。