論文の概要: Prompt-SID: Learning Structural Representation Prompt via Latent Diffusion for Single-Image Denoising
- arxiv url: http://arxiv.org/abs/2502.06432v2
- Date: Thu, 13 Mar 2025 12:49:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 17:08:08.198048
- Title: Prompt-SID: Learning Structural Representation Prompt via Latent Diffusion for Single-Image Denoising
- Title(参考訳): Prompt-SID:単一画像復調のための潜在拡散による構造表現の学習
- Authors: Huaqiu Li, Wang Zhang, Xiaowan Hu, Tao Jiang, Zikang Chen, Haoqian Wang,
- Abstract要約: 本稿では,Pmpt-SID(Prompt-SID)について紹介する。
構造的エンコーディングを通じてオリジナルスケールの画像情報をキャプチャし、このプロンプトをデノイザに統合する。
本稿では, 合成, 実世界, 蛍光画像の総合的な実験を行い, Prompt-SIDの顕著な有効性を示す。
- 参考スコア(独自算出の注目度): 23.07977702905715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many studies have concentrated on constructing supervised models utilizing paired datasets for image denoising, which proves to be expensive and time-consuming. Current self-supervised and unsupervised approaches typically rely on blind-spot networks or sub-image pairs sampling, resulting in pixel information loss and destruction of detailed structural information, thereby significantly constraining the efficacy of such methods. In this paper, we introduce Prompt-SID, a prompt-learning-based single image denoising framework that emphasizes preserving of structural details. This approach is trained in a self-supervised manner using downsampled image pairs. It captures original-scale image information through structural encoding and integrates this prompt into the denoiser. To achieve this, we propose a structural representation generation model based on the latent diffusion process and design a structural attention module within the transformer-based denoiser architecture to decode the prompt. Additionally, we introduce a scale replay training mechanism, which effectively mitigates the scale gap from images of different resolutions. We conduct comprehensive experiments on synthetic, real-world, and fluorescence imaging datasets, showcasing the remarkable effectiveness of Prompt-SID. Our code will be released at https://github.com/huaqlili/Prompt-SID.
- Abstract(参考訳): 多くの研究は、ペア化されたデータセットを使った教師付きモデルの構築に集中しており、これは高価で時間を要することを証明している。
現在の自己監督型および教師なし型のアプローチは、一般的に盲点ネットワークやサブイメージペアのサンプリングに依存しており、結果としてピクセル情報の損失と詳細な構造情報の破壊が生じ、そのような方法の有効性が著しく制限される。
本稿では,構造的詳細の保存を重視した,素早い学習に基づく単一画像記述フレームワークであるPrompt-SIDを紹介する。
このアプローチは、ダウンサンプリングされたイメージペアを使用して、自己教師型で訓練される。
構造的エンコーディングを通じてオリジナルスケールの画像情報をキャプチャし、このプロンプトをデノイザに統合する。
そこで本研究では, 遅延拡散過程に基づく構造表現生成モデルを提案し, トランスフォーマに基づくデノイザアーキテクチャ内の構造注目モジュールを設計して, プロンプトをデコードする。
さらに,解像度の異なる画像のスケールギャップを効果的に軽減する,スケール再生訓練機構を導入する。
本稿では, 合成, 実世界, 蛍光画像の総合的な実験を行い, Prompt-SIDの顕著な有効性を示す。
私たちのコードはhttps://github.com/huaqlili/Prompt-SIDでリリースされます。
関連論文リスト
- Perceive, Understand and Restore: Real-World Image Super-Resolution with Autoregressive Multimodal Generative Models [33.76031793753807]
我々は、自己回帰型マルチモーダルモデルLumina-mGPTを堅牢なReal-ISRモデル、すなわちPUREに適応する。
PUREは入力された低画質の画像を認識して理解し、高品質の画像を復元する。
実験により、PUREはリアルな細部を生成しながら、画像の内容を保存していることが示された。
論文 参考訳(メタデータ) (2025-03-14T04:33:59Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Hierarchical Information Flow for Generalized Efficient Image Restoration [108.83750852785582]
画像復元のための階層型情報フロー機構であるHi-IRを提案する。
Hi-IRは、劣化した画像を表す階層的な情報ツリーを3段階にわたって構築する。
7つの共通画像復元タスクにおいて、Hi-IRはその有効性と一般化性を達成する。
論文 参考訳(メタデータ) (2024-11-27T18:30:08Z) - MRIR: Integrating Multimodal Insights for Diffusion-based Realistic Image Restoration [17.47612023350466]
マルチモーダルなインサイトを持つ拡散型復元法であるMRIRを提案する。
テキストレベルでは、訓練済みのマルチモーダル大言語モデルのパワーを利用して、低品質の画像から意味のある意味情報を推測する。
視覚レベルでは、主にピクセルレベルの制御に焦点を合わせ、Pixelレベルのプロセッサと制御ネットを用いて空間構造を制御する。
論文 参考訳(メタデータ) (2024-07-04T04:55:14Z) - Contrastive Denoising Score for Text-guided Latent Diffusion Image Editing [58.48890547818074]
潜在拡散モデル(LDM)に対するコントラストデノナイジングスコア(CUT)の強力な修正を提案する。
提案手法により,ゼロショット画像から画像への変換とニューラルフィールド(NeRF)の編集が可能となり,入力と出力の間の構造的対応が達成される。
論文 参考訳(メタデータ) (2023-11-30T15:06:10Z) - Reconstruct-and-Generate Diffusion Model for Detail-Preserving Image
Denoising [16.43285056788183]
再構成・生成拡散モデル(Reconstruct-and-Generate Diffusion Model, RnG)と呼ばれる新しい手法を提案する。
提案手法は, 再構成型復調ネットワークを利用して, 基礎となるクリーン信号の大半を復元する。
拡散アルゴリズムを用いて残留する高周波の詳細を生成し、視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-09-19T16:01:20Z) - Improving Few-shot Image Generation by Structural Discrimination and
Textural Modulation [10.389698647141296]
画像生成の目的は、このカテゴリからいくつかの画像が与えられた場合、あるカテゴリに対して可塑性で多様な画像を生成することである。
既存のアプローチでは、異なる画像をグローバルに補間するか、事前に定義された係数で局所表現を融合する。
本稿では,内部局所表現に外部意味信号を注入する新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2023-08-30T16:10:21Z) - Steerable Conditional Diffusion for Out-of-Distribution Adaptation in Medical Image Reconstruction [75.91471250967703]
我々は、ステアブル条件拡散と呼ばれる新しいサンプリングフレームワークを導入する。
このフレームワークは、利用可能な測定によって提供される情報のみに基づいて、画像再構成と並行して拡散モデルを適用する。
様々な画像モダリティにまたがるアウト・オブ・ディストリビューション性能の大幅な向上を実現した。
論文 参考訳(メタデータ) (2023-08-28T08:47:06Z) - Enhancing Low-light Light Field Images with A Deep Compensation Unfolding Network [52.77569396659629]
本稿では,低光環境下で撮像した光場(LF)画像の復元に,DCUNet(Deep compensation network openfolding)を提案する。
このフレームワークは、中間拡張結果を使用して照明マップを推定し、展開プロセスで新しい拡張結果を生成する。
本稿では,LF画像の特徴を適切に活用するために,擬似明示的特徴相互作用モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-10T07:53:06Z) - Learning Detail-Structure Alternative Optimization for Blind
Super-Resolution [69.11604249813304]
そこで我々は,ブラインドSRに先立ってカーネルを曖昧にすることなく,再帰的な詳細構造代替最適化を実現する,有効かつカーネルフリーなネットワークDSSRを提案する。
DSSRでは、細部構造変調モジュール(DSMM)が構築され、画像の詳細と構造の相互作用と協調を利用する。
本手法は既存の手法に対して最先端の手法を実現する。
論文 参考訳(メタデータ) (2022-12-03T14:44:17Z) - Unsupervised Structure-Consistent Image-to-Image Translation [6.282068591820945]
Swapping Autoencoderは、ディープイメージ操作と画像から画像への変換において最先端のパフォーマンスを達成した。
我々は、勾配反転層に基づく単純で効果的な補助モジュールを導入することにより、この作業を改善する。
補助モジュールの損失は、ジェネレータが全ゼロテクスチャコードでイメージを再構築することを学ぶことを強制する。
論文 参考訳(メタデータ) (2022-08-24T13:47:15Z) - Real Image Restoration via Structure-preserving Complementarity
Attention [10.200625895876023]
本稿では,高密度モジュールとスパースモジュールを含む軽量なコンプレメンタリアテンションモジュールを提案する。
そこで,本論文では,勾配に基づく構造保存分岐を構築した。
論文 参考訳(メタデータ) (2022-07-28T04:24:20Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - SUMD: Super U-shaped Matrix Decomposition Convolutional neural network
for Image denoising [0.0]
ネットワークに行列分解モジュール(MD)を導入し,グローバルなコンテキスト機能を確立する。
U字型アーキテクチャの多段階的プログレッシブ復元の設計に触発されて,MDモジュールをマルチブランチに統合する。
我々のモデル(SUMD)は、Transformerベースの手法で、同等の視覚的品質と精度が得られる。
論文 参考訳(メタデータ) (2022-04-11T04:38:34Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - Defending Adversarial Examples via DNN Bottleneck Reinforcement [20.08619981108837]
本稿では,敵対的攻撃に対するディープニューラルネットワーク(DNN)の脆弱性を軽減するための強化手法を提案する。
後者を維持しながら前者を補強することにより、逆らうか否かに関わらず、冗長な情報は、潜在表現から取り除かなければならない。
情報ボトルネックを強化するために,ネットワークの周波数ステアリングを改善するために,マルチスケールの低域目標とマルチスケールの高周波通信を導入する。
論文 参考訳(メタデータ) (2020-08-12T11:02:01Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。