論文の概要: Controlling the Latent Diffusion Model for Generative Image Shadow Removal via Residual Generation
- arxiv url: http://arxiv.org/abs/2412.02322v1
- Date: Tue, 03 Dec 2024 09:38:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:44:27.690982
- Title: Controlling the Latent Diffusion Model for Generative Image Shadow Removal via Residual Generation
- Title(参考訳): 残差生成による画像影除去のための潜時拡散モデル制御
- Authors: Xinjie Li, Yang Zhao, Dong Wang, Yuan Chen, Li Cao, Xiaoping Liu,
- Abstract要約: 大規模な生成モデルは、忠実さに十分な焦点をあてることなく、多様で現実的な詳細を生成することが多い。
本稿では拡散モデルを用いて画像残像の生成と微細化を行う。
生成過程におけるエラーの蓄積を回避するために,クロスタイムステップの自己改善学習戦略を提案する。
- 参考スコア(独自算出の注目度): 18.514154007772337
- License:
- Abstract: Large-scale generative models have achieved remarkable advancements in various visual tasks, yet their application to shadow removal in images remains challenging. These models often generate diverse, realistic details without adequate focus on fidelity, failing to meet the crucial requirements of shadow removal, which necessitates precise preservation of image content. In contrast to prior approaches that aimed to regenerate shadow-free images from scratch, this paper utilizes diffusion models to generate and refine image residuals. This strategy fully uses the inherent detailed information within shadowed images, resulting in a more efficient and faithful reconstruction of shadow-free content. Additionally, to revent the accumulation of errors during the generation process, a crosstimestep self-enhancement training strategy is proposed. This strategy leverages the network itself to augment the training data, not only increasing the volume of data but also enabling the network to dynamically correct its generation trajectory, ensuring a more accurate and robust output. In addition, to address the loss of original details in the process of image encoding and decoding of large generative models, a content-preserved encoder-decoder structure is designed with a control mechanism and multi-scale skip connections to achieve high-fidelity shadow-free image reconstruction. Experimental results demonstrate that the proposed method can reproduce high-quality results based on a large latent diffusion prior and faithfully preserve the original contents in shadow regions.
- Abstract(参考訳): 大規模生成モデルは様々な視覚的タスクにおいて顕著な進歩を遂げてきたが、画像の影除去への応用は依然として困難である。
これらのモデルは、しばしば、画像内容の正確な保存を必要とするシャドウ除去の重要な要件を満たすことができず、忠実さに適切に焦点をあてることなく、多様で現実的な詳細を生成する。
影のない画像をゼロから再生することを目的とした従来の手法とは対照的に,拡散モデルを用いて画像残像の生成と精細化を行う。
この戦略は、シャドウ画像に固有の詳細な情報を完全に利用し、より効率的で忠実なシャドウフリーコンテンツの再構成をもたらす。
また, 生成過程におけるエラーの蓄積を防止すべく, クロスタイムステップ・セルフエンハンスメント・トレーニング戦略を提案する。
この戦略は、トレーニングデータを増やすためにネットワーク自体を活用し、データの量を増やすだけでなく、ネットワークが生成経路を動的に修正し、より正確で堅牢な出力を保証する。
また、大規模な生成モデルの画像符号化と復号化の過程で、元の細部が失われることに対処するため、コンテンツ保存エンコーダ・デコーダ構造を制御機構とマルチスケールスキップ接続で設計し、高忠実なシャドウフリー画像再構成を実現する。
実験結果から,提案手法は前もって大きな潜伏拡散に基づいて高品質な結果を再現し,影領域における元の内容を忠実に保存できることが示唆された。
関連論文リスト
- Generative Portrait Shadow Removal [27.98144439007323]
我々は,肖像画のイメージを効果的に向上できる高忠実な肖像画影除去モデルを提案する。
また,本手法は,実環境で捕獲した多様な被験者に対して堅牢性を示す。
論文 参考訳(メタデータ) (2024-10-07T22:09:22Z) - Diff-Restorer: Unleashing Visual Prompts for Diffusion-based Universal Image Restoration [19.87693298262894]
拡散モデルに基づく普遍的な画像復元手法であるDiff-Restorerを提案する。
我々は、事前学習された視覚言語モデルを用いて、劣化した画像から視覚的プロンプトを抽出する。
また、デグレーション対応デコーダを設計し、構造的補正を行い、潜在コードをピクセル領域に変換する。
論文 参考訳(メタデータ) (2024-07-04T05:01:10Z) - Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Latent Feature-Guided Diffusion Models for Shadow Removal [50.02857194218859]
本稿では,拡散過程における影領域の詳細を段階的に洗練する,有望なアプローチとして拡散モデルの利用を提案する。
シャドウフリー画像の特徴を継承する学習された潜在特徴空間を条件付けすることで,この処理を改善する。
AISTDデータセット上でRMSEを13%向上させる手法の有効性を示す。
論文 参考訳(メタデータ) (2023-12-04T18:59:55Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Deshadow-Anything: When Segment Anything Model Meets Zero-shot shadow
removal [8.555176637147648]
画像シャドー除去を実現するために,大規模データセットの一般化を考慮したDeshadow-Anythingを開発した。
拡散モデルは画像の端やテクスチャに沿って拡散し、画像の詳細を保存しながら影を取り除くのに役立つ。
シャドウ除去タスクの実験では、これらの手法が画像復元性能を効果的に向上できることが示されている。
論文 参考訳(メタデータ) (2023-09-21T01:35:13Z) - ShadowDiffusion: When Degradation Prior Meets Diffusion Model for Shadow
Removal [74.86415440438051]
画像と劣化先行情報を統合した統合拡散フレームワークを提案する。
SRDデータセット上でのPSNRは31.69dBから34.73dBへと大幅に向上した。
論文 参考訳(メタデータ) (2022-12-09T07:48:30Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Invertible Image Rescaling [118.2653765756915]
Invertible Rescaling Net (IRN) を開発した。
我々は、ダウンスケーリングプロセスにおいて、指定された分布に従う潜在変数を用いて、失われた情報の分布をキャプチャする。
論文 参考訳(メタデータ) (2020-05-12T09:55:53Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。