論文の概要: Shadow Generation for Composite Image Using Diffusion model
- arxiv url: http://arxiv.org/abs/2403.15234v1
- Date: Fri, 22 Mar 2024 14:27:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 17:09:34.211119
- Title: Shadow Generation for Composite Image Using Diffusion model
- Title(参考訳): 拡散モデルを用いた複合画像の影生成
- Authors: Qingyang Liu, Junqi You, Jianting Wang, Xinhao Tao, Bo Zhang, Li Niu,
- Abstract要約: 我々は、自然影画像の知識が豊富な基礎モデルに頼っている。
まず、タスクにControlNetを適応させ、次にシャドーインテンシティを改善するためにインテンシティ変調モジュールを提案する。
DESOBAとDESOBAv2データセットと実合成画像の両方の実験結果から,影生成タスクにおけるモデルの有効性が示された。
- 参考スコア(独自算出の注目度): 16.316311264197324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realm of image composition, generating realistic shadow for the inserted foreground remains a formidable challenge. Previous works have developed image-to-image translation models which are trained on paired training data. However, they are struggling to generate shadows with accurate shapes and intensities, hindered by data scarcity and inherent task complexity. In this paper, we resort to foundation model with rich prior knowledge of natural shadow images. Specifically, we first adapt ControlNet to our task and then propose intensity modulation modules to improve the shadow intensity. Moreover, we extend the small-scale DESOBA dataset to DESOBAv2 using a novel data acquisition pipeline. Experimental results on both DESOBA and DESOBAv2 datasets as well as real composite images demonstrate the superior capability of our model for shadow generation task. The dataset, code, and model are released at https://github.com/bcmi/Object-Shadow-Generation-Dataset-DESOBAv2.
- Abstract(参考訳): 画像合成の領域では、挿入された前景の現実的な影を生成することは、依然として恐ろしい課題である。
従来の研究は、ペア化されたトレーニングデータに基づいて訓練された画像から画像への変換モデルを開発した。
しかし、データ不足と固有のタスクの複雑さによって妨げられ、正確な形状と強度の影を生成するのに苦労しています。
本稿では,自然影画像の知識が豊富な基礎モデルを用いる。
具体的には、まずControlNetをタスクに適応させ、次にシャドーインテンシティを改善するためにインテンシティ変調モジュールを提案する。
さらに、新しいデータ取得パイプラインを用いて、小型のDESOBAデータセットをDESOBAv2に拡張する。
DESOBAとDESOBAv2データセットと実合成画像の両方の実験結果から,影生成タスクにおけるモデルの有効性が示された。
データセット、コード、モデルはhttps://github.com/bcmi/Object-Shadow-Generation-Dataset-DESOBAv2でリリースされる。
関連論文リスト
- Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation [58.09421301921607]
我々は、主観的画像編集と生成のための最初の大規模データセットを構築した。
データセットは、以前の最大のデータセットの5倍のサイズですが、コストは、何万時間も低いです。
論文 参考訳(メタデータ) (2024-06-13T16:40:39Z) - Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data [87.61900472933523]
この研究は、ロバストな単分子深度推定のための非常に実用的な解であるDepth Anythingを提示する。
データエンジンを設計し、大規模な未ラベルデータの収集と注釈付けを自動的に行うことにより、データセットをスケールアップします。
6つのパブリックデータセットとランダムにキャプチャされた写真を含む、ゼロショットの機能を広範囲に評価する。
論文 参考訳(メタデータ) (2024-01-19T18:59:52Z) - Exposure Bracketing is All You Need for Unifying Image Restoration and Enhancement Tasks [50.822601495422916]
本稿では,露光ブラケット写真を利用して画像復元と拡張作業を統合することを提案する。
実世界のペアの収集が困難であるため,まず合成ペアデータを用いてモデルを事前学習する手法を提案する。
特に,時間変調リカレントネットワーク(TMRNet)と自己教師あり適応手法を提案する。
論文 参考訳(メタデータ) (2024-01-01T14:14:35Z) - Deshadow-Anything: When Segment Anything Model Meets Zero-shot shadow
removal [8.555176637147648]
画像シャドー除去を実現するために,大規模データセットの一般化を考慮したDeshadow-Anythingを開発した。
拡散モデルは画像の端やテクスチャに沿って拡散し、画像の詳細を保存しながら影を取り除くのに役立つ。
シャドウ除去タスクの実験では、これらの手法が画像復元性能を効果的に向上できることが示されている。
論文 参考訳(メタデータ) (2023-09-21T01:35:13Z) - DESOBAv2: Towards Large-scale Real-world Dataset for Shadow Generation [19.376935979734714]
本研究では,合成画像をよりリアルにするために,挿入された前景オブジェクトに対する可塑性影の生成に焦点をあてる。
既存の小規模なデータセットであるDESOBAを補完するために、DESOBAv2と呼ばれる大規模なデータセットを作成します。
論文 参考訳(メタデータ) (2023-08-19T10:21:23Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - Shadow Generation with Decomposed Mask Prediction and Attentive Shadow
Filling [26.780859992812186]
我々は、合成画像をよりリアルにするために、挿入された前景オブジェクトに対して可塑性影を生成することに重点を置いている。
既存の小規模データセットを補完するために、レンダリング技術を備えたRdSOBAと呼ばれる大規模データセットを作成します。
我々は、マスク予測と注意影の埋め合わせを備えたDMASNetという2段階ネットワークを設計する。
論文 参考訳(メタデータ) (2023-06-30T01:32:16Z) - ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。
そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。
私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文 参考訳(メタデータ) (2022-11-21T14:27:07Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Learning from Synthetic Shadows for Shadow Detection and Removal [43.53464469097872]
最近のシャドウ除去は、実対のシャドウ/シャドウフリーまたはシャドウ/シャドウ/マスクイメージデータセット上のすべてのトレイン畳み込みニューラルネットワーク(CNN)にアプローチしている。
今回紹介するSynShadowは、新しい大規模合成影/影なし/マット画像トリプレットデータセットと合成パイプラインである。
論文 参考訳(メタデータ) (2021-01-05T18:56:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。