論文の概要: Language-Informed Hyperspectral Image Synthesis for Imbalanced-Small Sample Classification via Semi-Supervised Conditional Diffusion Model
- arxiv url: http://arxiv.org/abs/2502.19700v2
- Date: Fri, 28 Feb 2025 17:33:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:42:13.113245
- Title: Language-Informed Hyperspectral Image Synthesis for Imbalanced-Small Sample Classification via Semi-Supervised Conditional Diffusion Model
- Title(参考訳): 半教師付き条件拡散モデルを用いた言語インフォームドハイパースペクトル画像合成による不均衡スモールサンプル分類
- Authors: Yimin Zhu, Linlin Xu,
- Abstract要約: 本稿では,新しい言語インフォームドハイパースペクトル画像合成法であるTxt2HSI-LDM(VAE)を提案する。
ハイパースペクトルデータの高次元性に対処するため、普遍変分オートエンコーダ(VAE)は、データを低次元の潜在空間にマッピングするように設計されている。
VAEは、拡散モデルによって生成された潜時空間から言語条件を入力としてHSIをデコードする。
- 参考スコア(独自算出の注目度): 8.600534616819333
- License:
- Abstract: Data augmentation effectively addresses the imbalanced-small sample data (ISSD) problem in hyperspectral image classification (HSIC). While most methodologies extend features in the latent space, few leverage text-driven generation to create realistic and diverse samples. Recently, text-guided diffusion models have gained significant attention due to their ability to generate highly diverse and high-quality images based on text prompts in natural image synthesis. Motivated by this, this paper proposes Txt2HSI-LDM(VAE), a novel language-informed hyperspectral image synthesis method to address the ISSD in HSIC. The proposed approach uses a denoising diffusion model, which iteratively removes Gaussian noise to generate hyperspectral samples conditioned on textual descriptions. First, to address the high-dimensionality of hyperspectral data, a universal variational autoencoder (VAE) is designed to map the data into a low-dimensional latent space, which provides stable features and reduces the inference complexity of diffusion model. Second, a semi-supervised diffusion model is designed to fully take advantage of unlabeled data. Random polygon spatial clipping (RPSC) and uncertainty estimation of latent feature (LF-UE) are used to simulate the varying degrees of mixing. Third, the VAE decodes HSI from latent space generated by the diffusion model with the language conditions as input. In our experiments, we fully evaluate synthetic samples' effectiveness from statistical characteristics and data distribution in 2D-PCA space. Additionally, visual-linguistic cross-attention is visualized on the pixel level to prove that our proposed model can capture the spatial layout and geometry of the generated data. Experiments demonstrate that the performance of the proposed Txt2HSI-LDM(VAE) surpasses the classical backbone models, state-of-the-art CNNs, and semi-supervised methods.
- Abstract(参考訳): データ拡張は、ハイパースペクトル画像分類(HSIC)における不均衡小サンプルデータ(ISSD)問題に効果的に対処する。
ほとんどの方法論は潜在領域の機能を拡張するが、現実的で多様なサンプルを作成するためにテキスト駆動生成を利用するものはほとんどない。
近年,自然画像合成におけるテキストプロンプトに基づく高度に多彩で高品質な画像を生成する能力により,テキスト誘導拡散モデルが注目されている。
そこで本研究では,新しい言語インフォームドハイパースペクトル画像合成法であるTxt2HSI-LDM(VAE)を提案する。
提案手法は,ガウス雑音を反復的に除去し,テキスト記述に基づくハイパースペクトルサンプルを生成するデノナイジング拡散モデルを用いている。
まず,高スペクトルデータの高次元性に対処するため,低次元潜在空間にデータをマッピングするユニバーサル変分オートエンコーダ(VAE)を設計し,安定な特徴を提供し,拡散モデルの推論複雑性を低減する。
第2に、ラベルのないデータを完全に活用するために、半教師付き拡散モデルが設計されている。
異なる混合度をシミュレートするために、ランダムポリゴン空間クリッピング(RPSC)と潜在特徴の不確実性推定(LF-UE)を用いる。
第3に、VAEは、拡散モデルによって生成された潜時空間から言語条件を入力としてHSIを復号する。
実験では, 2次元PCA空間における統計特性とデータ分布から, 合成試料の有効性を十分に評価した。
さらに,画像言語によるクロスアテンションを画素レベルで可視化し,提案モデルが生成したデータの空間的レイアウトと幾何学を捉えることができることを示す。
実験により、提案したTxt2HSI-LDM(VAE)の性能が、古典的なバックボーンモデル、最先端CNN、および半教師付き手法を上回ることを示した。
関連論文リスト
- Diffusion Models Learn Low-Dimensional Distributions via Subspace Clustering [15.326641037243006]
拡散モデルは画像分布を効果的に学習し、新しいサンプルを生成する。
我々は、この現象に関する理論的な洞察を、重要な経験的観測を利用して提供する。
基礎となる分布を学習するのに必要となるサンプルの最小数は、本質的な次元と線形にスケールすることを示す。
論文 参考訳(メタデータ) (2024-09-04T04:14:02Z) - Deep Generative Sampling in the Dual Divergence Space: A Data-efficient & Interpretative Approach for Generative AI [29.13807697733638]
自然画像の生成的サンプリングにおける顕著な成果の上に構築する。
我々は、画像に似たサンプルを生成するという、画期的な挑戦を、潜在的に過度に野心的に提案する。
統計上の課題は、小さなサンプルサイズであり、時には数百人の被験者で構成されている。
論文 参考訳(メタデータ) (2024-04-10T22:35:06Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Risk-Sensitive Diffusion: Robustly Optimizing Diffusion Models with Noisy Samples [58.68233326265417]
非画像データは実際のアプリケーションで広く使われており、ノイズが多い傾向にある。
リスク感受性SDEは、リスクベクトルによってパラメータ化された微分方程式(SDE)の一種である。
我々はガウス雑音分布と非ガウス雑音分布の両方について系統的研究を行う。
論文 参考訳(メタデータ) (2024-02-03T08:41:51Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - A Geometric Perspective on Diffusion Models [57.27857591493788]
本稿では,人気のある分散拡散型SDEのODEに基づくサンプリングについて検討する。
我々は、最適なODEベースのサンプリングと古典的な平均シフト(モード探索)アルゴリズムの理論的関係を確立する。
論文 参考訳(メタデータ) (2023-05-31T15:33:16Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - DiffUCD:Unsupervised Hyperspectral Image Change Detection with Semantic
Correlation Diffusion Model [46.68717345017946]
ハイパースペクトル画像変化検出(HSI-CD)はリモートセンシングにおいて重要な研究領域となっている。
意味相関拡散モデル(DiffUCD)を用いた新しい教師なしHSI-CDを提案する。
提案手法は,多数のサンプルを必要とする完全教師付き手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2023-05-21T09:21:41Z) - Boosting Human-Object Interaction Detection with Text-to-Image Diffusion
Model [22.31860516617302]
本稿では,事前学習したテキスト画像拡散モデルに基づく新しいHOI検出方式であるDiffHOIを紹介する。
HOIデータセットのギャップを埋めるために、クラスバランス、大規模、高多様性の合成データセットであるSynHOIを提案する。
実験により、DiffHOIは通常の検出(41.50 mAP)とゼロショット検出において、最先端の技術を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2023-05-20T17:59:23Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - Graph Embedding via High Dimensional Model Representation for
Hyperspectral Images [9.228929858529678]
リモートセンシング画像の多様体構造を学習することは、モデリングおよび理解プロセスにおける最重要事項である。
ハイパスペクトル画像解析(HSI)に対処するためのマナーラーニング手法は優れた性能を示した。
この問題に対処する一般的な仮定は、高次元の入力空間と(典型的には低い)潜在空間の間の変換が線型であるということである。
提案手法は,その線形学習法とともに多様体学習法と比較し,代表的ハイパースペクトル画像の分類精度の観点から有望な性能を実現する。
論文 参考訳(メタデータ) (2021-11-29T16:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。