論文の概要: Text2Relight: Creative Portrait Relighting with Text Guidance
- arxiv url: http://arxiv.org/abs/2412.13734v1
- Date: Wed, 18 Dec 2024 11:12:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:48:07.091337
- Title: Text2Relight: Creative Portrait Relighting with Text Guidance
- Title(参考訳): Text2Relight: テキストガイダンスによるクリエイティブなポートレートリライト
- Authors: Junuk Cha, Mengwei Ren, Krishna Kumar Singh, He Zhang, Yannick Hold-Geoffroy, Seunghyun Yoon, HyunJoon Jung, Jae Shin Yoon, Seungryul Baek,
- Abstract要約: ポートレート画像とテキストプロンプトを付与し,単一画像のリライトを行う照明対応画像編集パイプラインを提案する。
我々のモデルは、提供されたテキスト記述に合わせるために、前景と背景の両方の照明と色を変更する。
- 参考スコア(独自算出の注目度): 26.75526739002697
- License:
- Abstract: We present a lighting-aware image editing pipeline that, given a portrait image and a text prompt, performs single image relighting. Our model modifies the lighting and color of both the foreground and background to align with the provided text description. The unbounded nature in creativeness of a text allows us to describe the lighting of a scene with any sensory features including temperature, emotion, smell, time, and so on. However, the modeling of such mapping between the unbounded text and lighting is extremely challenging due to the lack of dataset where there exists no scalable data that provides large pairs of text and relighting, and therefore, current text-driven image editing models does not generalize to lighting-specific use cases. We overcome this problem by introducing a novel data synthesis pipeline: First, diverse and creative text prompts that describe the scenes with various lighting are automatically generated under a crafted hierarchy using a large language model (*e.g.,* ChatGPT). A text-guided image generation model creates a lighting image that best matches the text. As a condition of the lighting images, we perform image-based relighting for both foreground and background using a single portrait image or a set of OLAT (One-Light-at-A-Time) images captured from lightstage system. Particularly for the background relighting, we represent the lighting image as a set of point lights and transfer them to other background images. A generative diffusion model learns the synthesized large-scale data with auxiliary task augmentation (*e.g.,* portrait delighting and light positioning) to correlate the latent text and lighting distribution for text-guided portrait relighting.
- Abstract(参考訳): ポートレート画像とテキストプロンプトを付与し,単一画像のリライトを行う照明対応画像編集パイプラインを提案する。
我々のモデルは、提供されたテキスト記述に合わせるために、前景と背景の両方の照明と色を変更する。
テキストの創造性における非有界な性質は、温度、感情、匂い、時間など、あらゆる感覚的な特徴を持つシーンの照明を記述することを可能にする。
しかし、大量のテキストとリライトを提供するスケーラブルなデータが存在しないようなデータセットが存在しないため、非有界テキストとライティングの間のこのようなマッピングのモデル化は非常に難しいため、現在のテキスト駆動画像編集モデルは、ライティング固有のユースケースに一般化しない。
まず、多様で創造的なテキストプロンプトで、様々な照明を施したシーンを、大きな言語モデル(*e ,* ChatGPT)を用いて人工階層で自動的に生成する。
テキスト誘導画像生成モデルは、テキストに最もよくマッチする照明画像を生成する。
照明画像の条件として、1枚のポートレート画像または1枚のOLAT(One-Light-at-A-Time)画像を用いて、前景と背景の両方で画像ベースのライティングを行う。
特に背景照明では,照明画像を点灯の集合として表現し,他の背景画像に転送する。
生成拡散モデルは、副タスク増強(*eg,*ポートレートライティングおよびライト位置決め)で合成された大規模データを学習し、テキスト誘導ポートレートライティングのための潜時テキストとライティング分布を相関付ける。
関連論文リスト
- ScribbleLight: Single Image Indoor Relighting with Scribbles [3.6902409965263474]
本稿では,スクリブルによる照明効果の局所的きめ細かい制御を支援する生成モデルであるScribbleLightを紹介する。
我々の重要な技術的新奇性はアルベド条件の安定な画像拡散モデルであり、リライティング後の原画像の本質的な色とテクスチャを保存します。
我々は、スパース・スクリブルアノテーションから異なる照明効果(例えば、ライトのオン/オフ、ハイライトの追加、キャストシャドウ、または間接的なライト)を作成するScribbleLightの能力を実証する。
論文 参考訳(メタデータ) (2024-11-26T18:59:11Z) - First Creating Backgrounds Then Rendering Texts: A New Paradigm for Visual Text Blending [5.3798706094384725]
背景作成とテキストのレンダリングの両方を含む新しいビジュアルテキストブレンディングパラダイムを提案する。
具体的には、背景生成装置を開発し、高忠実でテキストフリーな自然画像を生成する。
また,シーンテキスト検出のためのシーンテキストデータセット合成など,本手法に基づくダウンストリームアプリケーションについても検討する。
論文 参考訳(メタデータ) (2024-10-14T05:23:43Z) - LightIt: Illumination Modeling and Control for Diffusion Models [61.80461416451116]
我々は、画像生成のための明示的な照明制御方法であるLightItを紹介する。
最近の生成法では照明制御が欠如しており、画像生成の多くの芸術的側面に不可欠である。
本手法は、制御可能で一貫した照明による画像生成を可能にする最初の方法である。
論文 参考訳(メタデータ) (2024-03-15T18:26:33Z) - DiLightNet: Fine-grained Lighting Control for Diffusion-based Image Generation [16.080481761005203]
テキスト駆動画像生成における微細な照明制御を実現するための新しい手法を提案する。
私たちのキーとなる観察は、拡散過程を導くだけではならず、そのため正確な放射率のヒントは必要ないということです。
我々は、様々なテキストプロンプトと照明条件に基づいて、照明制御拡散モデルを実証し、検証する。
論文 参考訳(メタデータ) (2024-02-19T08:17:21Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - Physically-Based Editing of Indoor Scene Lighting from a Single Image [106.60252793395104]
本研究では,1つの画像から複雑な室内照明を推定深度と光源セグメンテーションマスクで編集する手法を提案する。
1)シーン反射率とパラメトリックな3D照明を推定する全体的シーン再構成法,2)予測からシーンを再レンダリングするニューラルレンダリングフレームワーク,である。
論文 参考訳(メタデータ) (2022-05-19T06:44:37Z) - SILT: Self-supervised Lighting Transfer Using Implicit Image
Decomposition [27.72518108918135]
このソリューションは、まず任意の照明スタイルの入力画像を統一されたドメインにマッピングすることを目的として、2分岐ネットワークとして動作する。
次に、生成された出力とスタイル参照と共に提示される判別器を用いて、この統合入力ドメインを再マップする。
本手法は, 照明監督を必要とせず, 2つの異なるデータセットにおいて, 教師付きリライティングソリューションよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-10-25T12:52:53Z) - Scene relighting with illumination estimation in the latent space on an
encoder-decoder scheme [68.8204255655161]
本報告では,その目的を達成するための手法について述べる。
我々のモデルは、シーン内容、光源位置、色温度の異なる、人工的な場所のレンダリングデータセットに基づいて訓練されている。
本データセットでは,被写体の潜在空間表現における光条件の推測と置き換えを目的とした照明推定成分を用いたネットワークを用いた。
論文 参考訳(メタデータ) (2020-06-03T15:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。