論文の概要: Prompt-SID: Learning Structural Representation Prompt via Latent Diffusion for Single-Image Denoising
- arxiv url: http://arxiv.org/abs/2502.06432v1
- Date: Mon, 10 Feb 2025 13:09:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:34:44.550076
- Title: Prompt-SID: Learning Structural Representation Prompt via Latent Diffusion for Single-Image Denoising
- Title(参考訳): Prompt-SID:単一画像復調のための潜在拡散による構造表現の学習
- Authors: Huaqiu Li, Wang Zhang, Xiaowan Hu, Tao Jiang, Zikang Chen, Haoqian Wang,
- Abstract要約: Prompt-SIDは、構造的詳細を保存することを強調する、素早い学習に基づく単一画像記述フレームワークである。
構造的エンコーディングを通じてオリジナルスケールの画像情報をキャプチャし、このプロンプトをデノイザに統合する。
本稿では, 合成, 実世界, 蛍光画像の総合的な実験を行い, Prompt-SIDの顕著な有効性を示す。
- 参考スコア(独自算出の注目度): 23.07977702905715
- License:
- Abstract: Many studies have concentrated on constructing supervised models utilizing paired datasets for image denoising, which proves to be expensive and time-consuming. Current self-supervised and unsupervised approaches typically rely on blind-spot networks or sub-image pairs sampling, resulting in pixel information loss and destruction of detailed structural information, thereby significantly constraining the efficacy of such methods. In this paper, we introduce Prompt-SID, a prompt-learning-based single image denoising framework that emphasizes preserving of structural details. This approach is trained in a self-supervised manner using downsampled image pairs. It captures original-scale image information through structural encoding and integrates this prompt into the denoiser. To achieve this, we propose a structural representation generation model based on the latent diffusion process and design a structural attention module within the transformer-based denoiser architecture to decode the prompt. Additionally, we introduce a scale replay training mechanism, which effectively mitigates the scale gap from images of different resolutions. We conduct comprehensive experiments on synthetic, real-world, and fluorescence imaging datasets, showcasing the remarkable effectiveness of Prompt-SID.
- Abstract(参考訳): 多くの研究は、ペア化されたデータセットを使った教師付きモデルの構築に集中しており、これは高価で時間を要することを証明している。
現在の自己監督型および教師なし型のアプローチは、一般的に盲点ネットワークやサブイメージペアのサンプリングに依存しており、結果としてピクセル情報の損失と詳細な構造情報の破壊が生じ、そのような方法の有効性が著しく制限される。
本稿では,構造的詳細の保存を重視した,素早い学習に基づく単一画像記述フレームワークであるPrompt-SIDを紹介する。
このアプローチは、ダウンサンプリングされたイメージペアを使用して、自己教師型で訓練される。
構造的エンコーディングを通じてオリジナルスケールの画像情報をキャプチャし、このプロンプトをデノイザに統合する。
そこで本研究では, 遅延拡散過程に基づく構造表現生成モデルを提案し, トランスフォーマに基づくデノイザアーキテクチャ内の構造注目モジュールを設計して, プロンプトをデコードする。
さらに,解像度の異なる画像のスケールギャップを効果的に軽減する,スケール再生訓練機構を導入する。
本稿では, 合成, 実世界, 蛍光画像の総合的な実験を行い, Prompt-SIDの顕著な有効性を示す。
関連論文リスト
- MRIR: Integrating Multimodal Insights for Diffusion-based Realistic Image Restoration [17.47612023350466]
マルチモーダルなインサイトを持つ拡散型復元法であるMRIRを提案する。
テキストレベルでは、訓練済みのマルチモーダル大言語モデルのパワーを利用して、低品質の画像から意味のある意味情報を推測する。
視覚レベルでは、主にピクセルレベルの制御に焦点を合わせ、Pixelレベルのプロセッサと制御ネットを用いて空間構造を制御する。
論文 参考訳(メタデータ) (2024-07-04T04:55:14Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Reconstruct-and-Generate Diffusion Model for Detail-Preserving Image
Denoising [16.43285056788183]
再構成・生成拡散モデル(Reconstruct-and-Generate Diffusion Model, RnG)と呼ばれる新しい手法を提案する。
提案手法は, 再構成型復調ネットワークを利用して, 基礎となるクリーン信号の大半を復元する。
拡散アルゴリズムを用いて残留する高周波の詳細を生成し、視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-09-19T16:01:20Z) - Improving Few-shot Image Generation by Structural Discrimination and
Textural Modulation [10.389698647141296]
画像生成の目的は、このカテゴリからいくつかの画像が与えられた場合、あるカテゴリに対して可塑性で多様な画像を生成することである。
既存のアプローチでは、異なる画像をグローバルに補間するか、事前に定義された係数で局所表現を融合する。
本稿では,内部局所表現に外部意味信号を注入する新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2023-08-30T16:10:21Z) - Steerable Conditional Diffusion for Out-of-Distribution Adaptation in Medical Image Reconstruction [75.91471250967703]
我々は、ステアブル条件拡散と呼ばれる新しいサンプリングフレームワークを導入する。
このフレームワークは、利用可能な測定によって提供される情報のみに基づいて、画像再構成と並行して拡散モデルを適用する。
様々な画像モダリティにまたがるアウト・オブ・ディストリビューション性能の大幅な向上を実現した。
論文 参考訳(メタデータ) (2023-08-28T08:47:06Z) - Enhancing Low-light Light Field Images with A Deep Compensation Unfolding Network [52.77569396659629]
本稿では,低光環境下で撮像した光場(LF)画像の復元に,DCUNet(Deep compensation network openfolding)を提案する。
このフレームワークは、中間拡張結果を使用して照明マップを推定し、展開プロセスで新しい拡張結果を生成する。
本稿では,LF画像の特徴を適切に活用するために,擬似明示的特徴相互作用モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-10T07:53:06Z) - Unsupervised Structure-Consistent Image-to-Image Translation [6.282068591820945]
Swapping Autoencoderは、ディープイメージ操作と画像から画像への変換において最先端のパフォーマンスを達成した。
我々は、勾配反転層に基づく単純で効果的な補助モジュールを導入することにより、この作業を改善する。
補助モジュールの損失は、ジェネレータが全ゼロテクスチャコードでイメージを再構築することを学ぶことを強制する。
論文 参考訳(メタデータ) (2022-08-24T13:47:15Z) - Real Image Restoration via Structure-preserving Complementarity
Attention [10.200625895876023]
本稿では,高密度モジュールとスパースモジュールを含む軽量なコンプレメンタリアテンションモジュールを提案する。
そこで,本論文では,勾配に基づく構造保存分岐を構築した。
論文 参考訳(メタデータ) (2022-07-28T04:24:20Z) - Rank-Enhanced Low-Dimensional Convolution Set for Hyperspectral Image
Denoising [50.039949798156826]
本稿では,ハイパースペクトル(HS)画像の難解化問題に対処する。
ランク付き低次元畳み込み集合(Re-ConvSet)を提案する。
次に、Re-ConvSetを広く使われているU-Netアーキテクチャに組み込んで、HS画像復号法を構築する。
論文 参考訳(メタデータ) (2022-07-09T13:35:12Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。