論文の概要: Latent-based Diffusion Model for Long-tailed Recognition
- arxiv url: http://arxiv.org/abs/2404.04517v2
- Date: Tue, 23 Apr 2024 04:54:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 18:46:42.492973
- Title: Latent-based Diffusion Model for Long-tailed Recognition
- Title(参考訳): ロングテール認識のための潜時拡散モデル
- Authors: Pengxiao Han, Changkun Ye, Jieming Zhou, Jing Zhang, Jie Hong, Xuesong Li,
- Abstract要約: 長い尾の不均衡分布は、実用的なコンピュータビジョンアプリケーションにおいて一般的な問題である。
そこで本稿では,Long-tailed Recognition (LDMLR) のための遅延型拡散モデル(Latent-based Diffusion Model for Long-tailed Recognition)を提案する。
モデルの精度は,提案手法を用いてCIFAR-LTおよびImageNet-LTデータセットの改善を示す。
- 参考スコア(独自算出の注目度): 10.410057703866899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-tailed imbalance distribution is a common issue in practical computer vision applications. Previous works proposed methods to address this problem, which can be categorized into several classes: re-sampling, re-weighting, transfer learning, and feature augmentation. In recent years, diffusion models have shown an impressive generation ability in many sub-problems of deep computer vision. However, its powerful generation has not been explored in long-tailed problems. We propose a new approach, the Latent-based Diffusion Model for Long-tailed Recognition (LDMLR), as a feature augmentation method to tackle the issue. First, we encode the imbalanced dataset into features using the baseline model. Then, we train a Denoising Diffusion Implicit Model (DDIM) using these encoded features to generate pseudo-features. Finally, we train the classifier using the encoded and pseudo-features from the previous two steps. The model's accuracy shows an improvement on the CIFAR-LT and ImageNet-LT datasets by using the proposed method.
- Abstract(参考訳): 長い尾の不均衡分布は、実用的なコンピュータビジョンアプリケーションにおいて一般的な問題である。
従来の研究では、再サンプリング、再重み付け、転乗学習、機能拡張といういくつかのクラスに分類されるこの問題に対処する方法が提案されていた。
近年、拡散モデルは深層コンピュータビジョンの多くのサブプロブレムにおいて印象的な生成能力を示している。
しかし、その強力な世代は長い尾の問題では研究されていない。
本稿では,Long-tailed Recognition (LDMLR) のためのラテントベース拡散モデル(Latent-based Diffusion Model for Long-tailed Recognition, LMLR)を提案する。
まず、不均衡なデータセットをベースラインモデルを用いて特徴にエンコードする。
次に、これらの符号化された特徴を用いてDEM(Denoising Diffusion Implicit Model)を訓練し、擬似特徴を生成する。
最後に、前の2つのステップから符号化および擬似特徴を用いて分類器を訓練する。
モデルの精度は,提案手法を用いてCIFAR-LTおよびImageNet-LTデータセットの改善を示す。
関連論文リスト
- Mini-Hes: A Parallelizable Second-order Latent Factor Analysis Model [8.06111903129142]
本稿では,LFAモデル構築のためのミニブロック対角ヘシアンフリー(Mini-Hes)最適化を提案する。
実験結果から,Mini-Hesでは,LFAモデルは欠落したデータ推定タスクに対処する上で,いくつかの最先端モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-19T08:43:00Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Fixed Point Diffusion Models [13.035518953879539]
FPDM(Fixed Point Diffusion Model)は、FPDM(Fixed Point Diffusion Model)の概念を拡散に基づく生成モデルに組み込んだ画像生成手法である。
提案手法では,拡散モデルのデノナイズネットワークに暗黙の固定点解法層を埋め込み,拡散過程を密接な関係のある固定点問題列に変換する。
我々は、ImageNet、FFHQ、CelebA-HQ、LSUN-Churchの最先端モデルを用いて実験を行い、性能と効率を大幅に改善した。
論文 参考訳(メタデータ) (2024-01-16T18:55:54Z) - LDM-ISP: Enhancing Neural ISP for Low Light with Latent Diffusion Models [54.93010869546011]
本稿では,事前学習した潜伏拡散モデルを用いて,超低照度画像の高精細化のためのニューラルISPを実現することを提案する。
具体的には、RAWドメイン上で動作するために事前訓練された潜在拡散モデルを調整するために、軽量なテーミングモジュールのセットをトレーニングする。
遅延拡散モデルにおけるUNet復調と復号化の異なる役割を観察し、低照度画像強調タスクを遅延空間低周波コンテンツ生成と復号位相高周波ディテール保守に分解するきっかけとなる。
論文 参考訳(メタデータ) (2023-12-02T04:31:51Z) - Diffusion-Model-Assisted Supervised Learning of Generative Models for
Density Estimation [10.793646707711442]
本稿では,密度推定のための生成モデルを訓練するためのフレームワークを提案する。
スコアベース拡散モデルを用いてラベル付きデータを生成する。
ラベル付きデータが生成されると、シンプルな完全に接続されたニューラルネットワークをトレーニングして、教師付き方法で生成モデルを学ぶことができます。
論文 参考訳(メタデータ) (2023-10-22T23:56:19Z) - Learning to Jump: Thinning and Thickening Latent Counts for Generative
Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。
ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文 参考訳(メタデータ) (2023-05-28T05:38:28Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z) - Deep Generative model with Hierarchical Latent Factors for Time Series
Anomaly Detection [40.21502451136054]
本研究は、時系列異常検出のための新しい生成モデルであるDGHLを提示する。
トップダウンの畳み込みネットワークは、新しい階層的な潜在空間を時系列ウィンドウにマッピングし、時間ダイナミクスを利用して情報を効率的にエンコードする。
提案手法は,4つのベンチマーク・データセットにおいて,現在の最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-02-15T17:19:44Z) - Discrete Auto-regressive Variational Attention Models for Text Modeling [53.38382932162732]
変分オートエンコーダ(VAE)はテキストモデリングに広く応用されている。
情報不足と後部崩壊という2つの課題に悩まされている。
本稿では,自己回帰変動注意モデル(DAVAM)を提案する。
論文 参考訳(メタデータ) (2021-06-16T06:36:26Z) - Causality-aware counterfactual confounding adjustment for feature
representations learned by deep models [14.554818659491644]
因果モデリングは機械学習(ML)における多くの課題に対する潜在的な解決策として認識されている。
深層ニューラルネットワーク(DNN)モデルによって学習された特徴表現を分解するために、最近提案された対実的アプローチが依然として使われている方法について説明する。
論文 参考訳(メタデータ) (2020-04-20T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。