論文の概要: MultiShadow: Multi-Object Shadow Generation for Image Compositing via Diffusion Model
- arxiv url: http://arxiv.org/abs/2603.02743v3
- Date: Thu, 05 Mar 2026 02:53:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 15:25:24.264022
- Title: MultiShadow: Multi-Object Shadow Generation for Image Compositing via Diffusion Model
- Title(参考訳): MultiShadow:拡散モデルによる画像合成のためのマルチオブジェクトシャドウ生成
- Authors: Waqas Ahmed, Dean Diepeveen, Ferdous Sohel,
- Abstract要約: シームレスな画像合成には多対象影生成が不可欠である。
本稿では,複数の挿入対象に対して物理的に可塑性な影を合成することを目的とする。
提案手法は,事前学習したテキスト・ツー・イメージ拡散モデルのマルチモーダル機能を利用する。
実験により,本手法は単一オブジェクトと多オブジェクトの両方のシャドウ生成設定において,最先端の性能を実現することを示す。
- 参考スコア(独自算出の注目度): 8.660813873416933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Realistic shadow generation is crucial for achieving seamless image compositing, yet existing methods primarily focus on single-object insertion and often fail to generalize when multiple foreground objects are composited into a background scene. In practice, however, modern compositing pipelines and real-world applications often insert multiple objects simultaneously, necessitating shadows that are jointly consistent in terms of geometry, attachment, and location. In this paper, we address the under-explored problem of multi-object shadow generation, aiming to synthesize physically plausible shadows for multiple inserted objects. Our approach exploits the multimodal capabilities of a pre-trained text-to-image diffusion model. An image pathway injects dense, multi-scale features to provide fine-grained spatial guidance, while a text-based pathway encodes per-object shadow bounding boxes as learned positional tokens and fuses them via cross-attention. An attention-alignment loss further grounds these tokens to their corresponding shadow regions. To support this task, we augment the DESOBAv2 dataset by constructing composite scenes with multiple inserted objects and automatically derive prompts combining object category and shadow positioning information. Experimental results demonstrate that our method achieves state-of-the-art performance in both single and multi-object shadow generation settings.
- Abstract(参考訳): シームレスな画像合成を実現するためには,現実的な影生成が不可欠であるが,既存の手法は主に単一オブジェクト挿入に重点を置いており,複数の前景オブジェクトを背景シーンに合成する際には一般化に失敗することが多い。
しかし実際には、現代の合成パイプラインと実世界のアプリケーションは、しばしば複数のオブジェクトを同時に挿入し、幾何学、アタッチメント、位置の点で共同で一貫性のある影を必要とする。
本稿では,複数の挿入対象に対して物理的に可塑性な影を合成することを目的とした,多対象影生成の未探索問題に対処する。
提案手法は,事前学習したテキスト・ツー・イメージ拡散モデルのマルチモーダル機能を利用する。
画像経路は、密集した多スケールな特徴を注入し、微細な空間誘導を提供する一方、テキストベースの経路は、学習された位置トークンとしてオブジェクトごとのシャドーバウンディングボックスを符号化し、クロスアテンションを介して融合する。
注意調整損失により、これらのトークンは対応する影領域にさらに接地される。
このタスクを支援するために、複数の挿入されたオブジェクトからなる複合シーンを構築してDESOBAv2データセットを拡張し、オブジェクトカテゴリとシャドー位置情報を組み合わせたプロンプトを自動的に導出する。
実験により,本手法は単一オブジェクトと多オブジェクトの両方のシャドウ生成設定において,最先端の性能を実現することを示す。
関連論文リスト
- Joint Shadow Generation and Relighting via Light-Geometry Interaction Maps [51.82696819319878]
単分子深度から光を識別する新しい表現である光幾何相互作用マップを提案する。
LGIは、オフザシェルフ2.5D深度マップ予測から計算された、確実かつ正確に光と影の相互作用をキャプチャする。
LGIをブリッジマッチングした生成バックボーンに埋め込むことで、曖昧さを低減し、物理的に一貫した光陰性推論を強制する。
論文 参考訳(メタデータ) (2026-02-25T11:47:26Z) - PLACID: Identity-Preserving Multi-Object Compositing via Video Diffusion with Synthetic Trajectories [22.63777279327245]
PLACIDは、オブジェクトイメージの集合を魅力的なマルチオブジェクト複合体に変換するフレームワークである。
まず、事前訓練された画像間拡散モデルとテキスト制御を用いて、オブジェクトの一貫性、アイデンティティ、背景の詳細を保存する。
第2に、ランダムに配置されたオブジェクトがターゲット位置へスムーズに移動する合成シーケンスを生成する新しいデータキュレーション戦略を提案する。
論文 参考訳(メタデータ) (2026-01-30T19:42:54Z) - Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition [73.43121650616804]
単一のRGB画像を複数の意味的不整合RGBA層に分解するエンドツーエンド拡散モデルである textbfQwen-Image-Layered を提案する。
本手法は,分解品質の既存手法を大幅に上回り,一貫した画像編集のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-12-17T17:12:42Z) - FROMAT: Multiview Material Appearance Transfer via Few-Shot Self-Attention Adaptation [49.74776147964999]
マルチビュー拡散モデルにおける外観伝達のための軽量適応手法を提案する。
提案手法では,入力画像からオブジェクトの同一性と,参照画像に描画された外見の手がかりとを組み合わせ,マルチビュー一貫性のある出力を生成する。
論文 参考訳(メタデータ) (2025-12-10T13:06:40Z) - Controllable Shadow Generation with Single-Step Diffusion Models from Synthetic Data [7.380444448047908]
本研究では,2次元オブジェクト画像の高速・制御可能・背景自由影生成のための新しい手法を提案する。
我々は3Dレンダリングエンジンを用いて大規模な合成データセットを作成し、制御可能なシャドウ生成のための拡散モデルを訓練する。
修正フローの目的は, リアルタイムアプリケーションを実現する1つのサンプリングステップで, 高品質な結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-16T16:55:22Z) - Generative Image Layer Decomposition with Visual Effects [49.75021036203426]
LayerDecompは、イメージ層分解のための生成フレームワークである。
清潔な背景と、忠実に保存された視覚効果を持つ高品質な透明な前景を作り出す。
本手法は,オブジェクト除去や空間編集作業において,既存の手法よりも優れた分解特性を実現する。
論文 参考訳(メタデータ) (2024-11-26T20:26:49Z) - Soft-Hard Attention U-Net Model and Benchmark Dataset for Multiscale Image Shadow Removal [2.999888908665659]
本研究では,マルチスケールシャドウ除去に着目した,ソフトハード注意U-net(SHAU)という新しいディープラーニングアーキテクチャを提案する。
マルチスケールシャドウ除去データセット(MSRD)と呼ばれる新しい合成データセットを提供し、複数のスケールの複雑なシャドウパターンを含んでいる。
その結果,SHAUは,様々なベンチマークデータセット間で,関連する最先端のシャドウ除去方法に対して有効であることが示された。
論文 参考訳(メタデータ) (2024-08-07T12:42:06Z) - SwinShadow: Shifted Window for Ambiguous Adjacent Shadow Detection [90.4751446041017]
スウィンシャドウ(SwinShadow)は、隣接する影を検出するための強力なシフトウインドウ機構をフル活用したトランスフォーマーベースのアーキテクチャである。
プロセス全体は、エンコーダ、デコーダ、機能統合の3つの部分に分けられる。
SBU, UCF, ISTDの3つのシャドウ検出ベンチマークデータセットの実験により, ネットワークがバランスエラー率(BER)の点で優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-08-07T03:16:33Z) - DESOBAv2: Towards Large-scale Real-world Dataset for Shadow Generation [19.376935979734714]
本研究では,合成画像をよりリアルにするために,挿入された前景オブジェクトに対する可塑性影の生成に焦点をあてる。
既存の小規模なデータセットであるDESOBAを補完するために、DESOBAv2と呼ばれる大規模なデータセットを作成します。
論文 参考訳(メタデータ) (2023-08-19T10:21:23Z) - ObjectStitch: Generative Object Compositing [43.206123360578665]
本研究では,条件付き拡散モデルを用いたオブジェクト合成のための自己教師型フレームワークを提案する。
我々のフレームワークは、手動ラベリングを必要とせず、生成したオブジェクトの視点、幾何学、色、影を変換することができる。
本手法は, 実世界の様々な画像に対するユーザ研究において, 合成結果画像の写実性と忠実性の両方において, 関連ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-12-02T02:15:13Z) - IRISformer: Dense Vision Transformers for Single-Image Inverse Rendering
in Indoor Scenes [99.76677232870192]
我々は、高密度な視覚変換器であるIRISformerが、逆レンダリングに必要なシングルタスクとマルチタスクの推論の両方で優れていることを示す。
具体的には,屋内シーンの単一画像から深度,正規度,空間変化アルベド,粗さ,照明を同時に推定するトランスフォーマーアーキテクチャを提案する。
ベンチマークデータセットを用いた評価では、上記の各タスクについて最先端の結果が示され、オブジェクト挿入や物質編集などの応用を、制約のない1つの実画像で実現する。
論文 参考訳(メタデータ) (2022-06-16T19:50:55Z) - Deep Image Compositing [93.75358242750752]
ユーザ入力なしで高品質の画像合成を自動生成する手法を提案する。
ラプラシアン・ピラミッド・ブレンディングにインスパイアされ、フォアグラウンドや背景画像からの情報を効果的に融合させるために、密結合型多ストリーム融合ネットワークが提案されている。
実験により,提案手法は高品質な合成物を自動生成し,定性的かつ定量的に既存手法より優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-11-04T06:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。