Fugu-MT 論文翻訳(概要): Latent-based Diffusion Model for Long-tailed Recognition

論文の概要: Latent-based Diffusion Model for Long-tailed Recognition

arxiv url: http://arxiv.org/abs/2404.04517v1
Date: Sat, 6 Apr 2024 06:15:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-09 20:58:47.842212
Title: Latent-based Diffusion Model for Long-tailed Recognition
Title（参考訳）: ロングテール認識のための潜時拡散モデル
Authors: Pengxiao Han, Changkun Ye, Jieming Zhou, Jing Zhang, Jie Hong, Xuesong Li,
Abstract要約: 長い尾の不均衡分布は、実用的なコンピュータビジョンアプリケーションにおいて一般的な問題である。そこで本稿では,Long-tailed Recognition (LDMLR) のための遅延型拡散モデル(Latent-based Diffusion Model for Long-tailed Recognition)を提案する。モデルの精度は,提案手法を用いてCIFAR-LTおよびImageNet-LTデータセットの改善を示す。
参考スコア（独自算出の注目度）: 10.410057703866899
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Long-tailed imbalance distribution is a common issue in practical computer vision applications. Previous works proposed methods to address this problem, which can be categorized into several classes: re-sampling, re-weighting, transfer learning, and feature augmentation. In recent years, diffusion models have shown an impressive generation ability in many sub-problems of deep computer vision. However, its powerful generation has not been explored in long-tailed problems. We propose a new approach, the Latent-based Diffusion Model for Long-tailed Recognition (LDMLR), as a feature augmentation method to tackle the issue. First, we encode the imbalanced dataset into features using the baseline model. Then, we train a Denoising Diffusion Implicit Model (DDIM) using these encoded features to generate pseudo-features. Finally, we train the classifier using the encoded and pseudo-features from the previous two steps. The model's accuracy shows an improvement on the CIFAR-LT and ImageNet-LT datasets by using the proposed method.
Abstract（参考訳）: 長い尾の不均衡分布は、実用的なコンピュータビジョンアプリケーションにおいて一般的な問題である。従来の研究では、再サンプリング、再重み付け、転乗学習、機能拡張といういくつかのクラスに分類されるこの問題に対処する方法が提案されていた。近年、拡散モデルは深層コンピュータビジョンの多くのサブプロブレムにおいて印象的な生成能力を示している。しかし、その強力な世代は長い尾の問題では研究されていない。本稿では,Long-tailed Recognition (LDMLR) のためのラテントベース拡散モデル(Latent-based Diffusion Model for Long-tailed Recognition, LMLR)を提案する。まず、不均衡なデータセットをベースラインモデルを用いて特徴にエンコードする。次に、これらの符号化された特徴を用いてDEM(Denoising Diffusion Implicit Model)を訓練し、擬似特徴を生成する。最後に、前の2つのステップから符号化および擬似特徴を用いて分類器を訓練する。モデルの精度は,提案手法を用いてCIFAR-LTおよびImageNet-LTデータセットの改善を示す。

関連論文リスト

Diffusion Beats Autoregressive in Data-Constrained Settings [50.56893491038853]
自己回帰(AR)モデルは長い間、大きな言語モデルのランドスケープを支配してきた。近年,ARモデルよりもアドバンテージが低いものの,拡散型言語モデルが将来性のある選択肢として浮上している。本研究では,限られたデータ上で繰り返し学習を行うデータ制約付き環境で,マスク拡散モデルについて系統的に研究する。我々の結果は、データが計算ではなくボトルネックである場合、拡散モデルは標準的なARパラダイムに代わる魅力的な代替手段となることを示唆している。
論文参考訳（メタデータ） (2025-07-21T17:59:57Z)
LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling [23.886038479359918]
本稿では,事前学習した潜伏拡散モデルを用いた再帰サンプリングによるデータセットフリーで統一的な手法を提案する。本手法では,マルチモーダル理解モデルを用いて,タスクブレンド条件下で生成モデルにセマンティックな事前情報を提供する。
論文参考訳（メタデータ） (2025-07-01T14:25:09Z)
Intention-Conditioned Flow Occupancy Models [69.79049994662591]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文参考訳（メタデータ） (2025-06-10T15:27:46Z)
Reverse-BSDE Monte Carlo [1.8749305679160366]
我々は拡散に基づく生成モデルを管理する方程式をフォワード-バックワード微分方程式(FBSDE)として再構成する。本稿では,ディープラーニング技術を活用した数値解を提案する。
論文参考訳（メタデータ） (2025-05-11T00:42:07Z)
Towards Scalable and Deep Graph Neural Networks via Noise Masking [59.058558158296265]
グラフニューラルネットワーク(GNN)は多くのグラフマイニングタスクで顕著に成功している。計算とストレージのコストが高いため、大きなグラフにスケールすることは困難です。既存のモデル単純化作業と互換性のあるプラグアンドプレイモジュールであるノイズマスキング(RMask)を用いたランダムウォークを提案する。
論文参考訳（メタデータ） (2024-12-19T07:48:14Z)
Model Integrity when Unlearning with T2I Diffusion Models [11.321968363411145]
「忘れ分布からのサンプルを特徴とする特定種類の画像の生成を減らすために、近似機械学習アルゴリズムを提案する。」次に、既存のベースラインと比較してモデルの整合性を保つ上で優れた効果を示す未学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-04T13:15:28Z)
MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。 MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文参考訳（メタデータ） (2024-10-14T17:57:18Z)
LinFusion: 1 GPU, 1 Minute, 16K Image [71.44735417472043]
我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。蒸留したLinFusionは,元のSDと同等以上の性能を示す。 SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
論文参考訳（メタデータ） (2024-09-03T17:54:39Z)
SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。 10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文参考訳（メタデータ） (2024-07-22T08:04:09Z)
Long Tail Image Generation Through Feature Space Augmentation and Iterated Learning [0.7578439720012189]
本稿では,事前学習した安定拡散モデルのリッチ潜時空間を活用することで,長期データにおける画像拡張手法を提案する。 K-NNアプローチによるタスク固有の相性マップに適用する。
論文参考訳（メタデータ） (2024-05-02T20:03:19Z)
Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文参考訳（メタデータ） (2024-02-28T08:34:23Z)
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文参考訳（メタデータ） (2024-02-15T18:59:18Z)
Fixed Point Diffusion Models [13.035518953879539]
FPDM(Fixed Point Diffusion Model)は、FPDM(Fixed Point Diffusion Model)の概念を拡散に基づく生成モデルに組み込んだ画像生成手法である。提案手法では,拡散モデルのデノナイズネットワークに暗黙の固定点解法層を埋め込み,拡散過程を密接な関係のある固定点問題列に変換する。我々は、ImageNet、FFHQ、CelebA-HQ、LSUN-Churchの最先端モデルを用いて実験を行い、性能と効率を大幅に改善した。
論文参考訳（メタデータ） (2024-01-16T18:55:54Z)
Learning to Jump: Thinning and Thickening Latent Counts for Generative Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文参考訳（メタデータ） (2023-05-28T05:38:28Z)
Deep Generative model with Hierarchical Latent Factors for Time Series Anomaly Detection [40.21502451136054]
本研究は、時系列異常検出のための新しい生成モデルであるDGHLを提示する。トップダウンの畳み込みネットワークは、新しい階層的な潜在空間を時系列ウィンドウにマッピングし、時間ダイナミクスを利用して情報を効率的にエンコードする。提案手法は,4つのベンチマーク・データセットにおいて,現在の最先端モデルよりも優れていた。
論文参考訳（メタデータ） (2022-02-15T17:19:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。