論文の概要: DiLightNet: Fine-grained Lighting Control for Diffusion-based Image Generation
- arxiv url: http://arxiv.org/abs/2402.11929v2
- Date: Tue, 28 May 2024 03:55:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 01:18:48.213279
- Title: DiLightNet: Fine-grained Lighting Control for Diffusion-based Image Generation
- Title(参考訳): DiLightNet:拡散画像生成のための微粒化照明制御
- Authors: Chong Zeng, Yue Dong, Pieter Peers, Youkang Kong, Hongzhi Wu, Xin Tong,
- Abstract要約: テキスト駆動画像生成における微細な照明制御を実現するための新しい手法を提案する。
私たちのキーとなる観察は、拡散過程を導くだけではならず、そのため正確な放射率のヒントは必要ないということです。
我々は、様々なテキストプロンプトと照明条件に基づいて、照明制御拡散モデルを実証し、検証する。
- 参考スコア(独自算出の注目度): 16.080481761005203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel method for exerting fine-grained lighting control during text-driven diffusion-based image generation. While existing diffusion models already have the ability to generate images under any lighting condition, without additional guidance these models tend to correlate image content and lighting. Moreover, text prompts lack the necessary expressional power to describe detailed lighting setups. To provide the content creator with fine-grained control over the lighting during image generation, we augment the text-prompt with detailed lighting information in the form of radiance hints, i.e., visualizations of the scene geometry with a homogeneous canonical material under the target lighting. However, the scene geometry needed to produce the radiance hints is unknown. Our key observation is that we only need to guide the diffusion process, hence exact radiance hints are not necessary; we only need to point the diffusion model in the right direction. Based on this observation, we introduce a three stage method for controlling the lighting during image generation. In the first stage, we leverage a standard pretrained diffusion model to generate a provisional image under uncontrolled lighting. Next, in the second stage, we resynthesize and refine the foreground object in the generated image by passing the target lighting to a refined diffusion model, named DiLightNet, using radiance hints computed on a coarse shape of the foreground object inferred from the provisional image. To retain the texture details, we multiply the radiance hints with a neural encoding of the provisional synthesized image before passing it to DiLightNet. Finally, in the third stage, we resynthesize the background to be consistent with the lighting on the foreground object. We demonstrate and validate our lighting controlled diffusion model on a variety of text prompts and lighting conditions.
- Abstract(参考訳): 本稿では,テキスト駆動拡散画像生成におけるきめ細かな照明制御を実現するための新しい手法を提案する。
既存の拡散モデルは、任意の照明条件下で画像を生成する能力を持っているが、追加のガイダンスなしでは、これらのモデルは画像の内容と照明を相関する傾向にある。
さらに、テキストプロンプトには詳細な照明設定を記述するために必要な表現力がない。
画像生成時の照明のきめ細かい制御を可能とし、かつ、照度ヒントの形で詳細な照明情報、すなわち、ターゲット照明下で均質な正準材を用いたシーン形状の可視化によりテキストプロンプトを増強するコンテンツクリエータを提供する。
しかし、放射光のヒントを生成するのに必要なシーン形状は分かっていない。
我々のキーとなる観察は、拡散過程のみを導く必要があるため、正確な放射率ヒントは不要であり、拡散モデルを正しい方向に向ける必要があることである。
この観測に基づいて,画像生成時の照明を制御する3段階の手法を提案する。
最初の段階では、標準の事前学習拡散モデルを利用して、制御不能な照明下で暫定的な画像を生成する。
次に、第2段階では、仮画像から推定される前景オブジェクトの粗い形状に計算された放射率ヒントを用いて、ターゲット照明を改良された拡散モデルであるDiLightNetに渡すことにより、生成画像中の前景オブジェクトを再合成し、精製する。
テクスチャの詳細を維持するために、ダイライトネットに渡す前に、レイディアンスヒントを仮合成画像のニューラルエンコーディングに乗じる。
最後に、第3段階において、背景を前景の照明と整合させるように再合成する。
我々は、様々なテキストプロンプトと照明条件に基づいて、照明制御拡散モデルを実証し、検証する。
関連論文リスト
- Neural Gaffer: Relighting Any Object via Diffusion [43.87941408722868]
我々はニューラル・ギャファーと呼ばれる新しいエンドツーエンドの2次元ライティング拡散モデルを提案する。
我々のモデルは、任意の物体の1つの画像を取り、新しい照明条件下で、正確で高品質な信頼された画像を合成することができる。
本稿では,インターネット画像の総合化と精度の両面からモデルを評価し,その利点を一般化と精度の両面から示す。
論文 参考訳(メタデータ) (2024-06-11T17:50:15Z) - Zero-Reference Low-Light Enhancement via Physical Quadruple Priors [58.77377454210244]
本稿では,標準光画像のみをトレーニング可能な,ゼロ参照低光強調フレームワークを提案する。
このフレームワークは、画像にさかのぼる照明不変性を復元し、自動的に低照度化を実現します。
論文 参考訳(メタデータ) (2024-03-19T17:36:28Z) - LightIt: Illumination Modeling and Control for Diffusion Models [61.80461416451116]
我々は、画像生成のための明示的な照明制御方法であるLightItを紹介する。
最近の生成法では照明制御が欠如しており、画像生成の多くの芸術的側面に不可欠である。
本手法は、制御可能で一貫した照明による画像生成を可能にする最初の方法である。
論文 参考訳(メタデータ) (2024-03-15T18:26:33Z) - Relightful Harmonization: Lighting-aware Portrait Background Replacement [23.19641174787912]
背景画像を用いた背景像に対する高度な照明効果をシームレスに調和させるライティング対応拡散モデルであるRelightful Harmonizationを導入する。
まず、拡散モデルを用いて、対象画像の背景から照明情報をエンコードする照明表現モジュールを導入する。
第2に、画像背景から学習した照明特徴と、パノラマ環境マップから学習した照明特徴とを整列するアライメントネットワークを導入する。
論文 参考訳(メタデータ) (2023-12-11T23:20:31Z) - Designing An Illumination-Aware Network for Deep Image Relighting [69.750906769976]
本稿では、階層的なサンプリングから1つの画像からシーンを段階的にリライトするためのガイダンスに従うイルミネーション・アウェア・ネットワーク(IAN)を提案する。
さらに、物理レンダリングプロセスの近似として、イルミネーション・アウェア・残留ブロック(IARB)が設計されている。
実験の結果,提案手法は従来の最先端手法よりも定量的,定性的な照準結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-07-21T16:21:24Z) - Physically-Based Editing of Indoor Scene Lighting from a Single Image [106.60252793395104]
本研究では,1つの画像から複雑な室内照明を推定深度と光源セグメンテーションマスクで編集する手法を提案する。
1)シーン反射率とパラメトリックな3D照明を推定する全体的シーン再構成法,2)予測からシーンを再レンダリングするニューラルレンダリングフレームワーク,である。
論文 参考訳(メタデータ) (2022-05-19T06:44:37Z) - SILT: Self-supervised Lighting Transfer Using Implicit Image
Decomposition [27.72518108918135]
このソリューションは、まず任意の照明スタイルの入力画像を統一されたドメインにマッピングすることを目的として、2分岐ネットワークとして動作する。
次に、生成された出力とスタイル参照と共に提示される判別器を用いて、この統合入力ドメインを再マップする。
本手法は, 照明監督を必要とせず, 2つの異なるデータセットにおいて, 教師付きリライティングソリューションよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-10-25T12:52:53Z) - Relighting Images in the Wild with a Self-Supervised Siamese
Auto-Encoder [62.580345486483886]
本研究では,野生の単一ビュー画像の自己教師付きリライティング手法を提案する。
この方法は、イメージを2つの別々のエンコーディングに分解するオートエンコーダに基づいている。
Youtube 8MやCelebAなどの大規模データセットでモデルをトレーニングします。
論文 参考訳(メタデータ) (2020-12-11T16:08:50Z) - Light Stage Super-Resolution: Continuous High-Frequency Relighting [58.09243542908402]
光ステージから採取した人間の顔の「超解像」を学習ベースで解析する手法を提案する。
本手法では,ステージ内の隣接する照明に対応する撮像画像を集約し,ニューラルネットワークを用いて顔の描画を合成する。
我々の学習モデルは、リアルな影と特異なハイライトを示す任意の光方向のレンダリングを生成することができる。
論文 参考訳(メタデータ) (2020-10-17T23:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。