論文の概要: FashionR2R: Texture-preserving Rendered-to-Real Image Translation with Diffusion Models
- arxiv url: http://arxiv.org/abs/2410.14429v1
- Date: Fri, 18 Oct 2024 12:48:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:27:18.279198
- Title: FashionR2R: Texture-preserving Rendered-to-Real Image Translation with Diffusion Models
- Title(参考訳): FashionR2R:拡散モデルを用いたテクスチャ保存レンダリング・トゥ・リアル画像変換
- Authors: Rui Hu, Qian He, Gaofeng He, Jiedong Zhuang, Huang Chen, Huafeng Liu, Huamin Wang,
- Abstract要約: 本稿では,レンダリングの制御に基づく拡散モデルから生成するパワーを利用して,レンダリング画像のフォトリアリズム向上について検討する。
ドメイン知識注入(Domain Knowledge Injection, DKI)と現実画像生成(Realistic Image Generation, RIG)という2つの段階から構成される。
- 参考スコア(独自算出の注目度): 14.596090302381647
- License:
- Abstract: Modeling and producing lifelike clothed human images has attracted researchers' attention from different areas for decades, with the complexity from highly articulated and structured content. Rendering algorithms decompose and simulate the imaging process of a camera, while are limited by the accuracy of modeled variables and the efficiency of computation. Generative models can produce impressively vivid human images, however still lacking in controllability and editability. This paper studies photorealism enhancement of rendered images, leveraging generative power from diffusion models on the controlled basis of rendering. We introduce a novel framework to translate rendered images into their realistic counterparts, which consists of two stages: Domain Knowledge Injection (DKI) and Realistic Image Generation (RIG). In DKI, we adopt positive (real) domain finetuning and negative (rendered) domain embedding to inject knowledge into a pretrained Text-to-image (T2I) diffusion model. In RIG, we generate the realistic image corresponding to the input rendered image, with a Texture-preserving Attention Control (TAC) to preserve fine-grained clothing textures, exploiting the decoupled features encoded in the UNet structure. Additionally, we introduce SynFashion dataset, featuring high-quality digital clothing images with diverse textures. Extensive experimental results demonstrate the superiority and effectiveness of our method in rendered-to-real image translation.
- Abstract(参考訳): 生命に類似した人間の画像のモデリングと生成は、高度に調音された、構造化されたコンテンツからの複雑さによって、何十年もの間、研究者の関心を惹きつけてきた。
レンダリングアルゴリズムは、カメラの撮像プロセスを分解し、シミュレートするが、モデル化された変数の精度と計算の効率によって制限される。
生成モデルは驚くほど鮮明な人間の画像を生成できるが、制御性や編集性には欠ける。
本稿では,レンダリングの制御に基づく拡散モデルから生成するパワーを利用して,レンダリング画像の光現実性向上について検討する。
本稿では、ドメイン知識注入(DKI)とリアリスティック画像生成(RIG)の2段階からなる、レンダリングされた画像を現実のものに翻訳する新しいフレームワークを紹介する。
DKIでは、事前学習されたテキスト・ツー・イメージ(T2I)拡散モデルに知識を注入するために、正(実)領域の微調整と負(実)領域の埋め込みを採用する。
In RIG, we generated thereal image corresponding to the inputred image, with a Texture-serving Attention Control (TAC) to keep fine-fine clothes textures, using the decoupled features encodeed in the UNet structure。
さらに,多様なテクスチャを備えた高品質なデジタル衣料品画像を備えたSynFashionデータセットも紹介する。
画像翻訳における提案手法の優位性と有効性について検討した。
関連論文リスト
- RealCompo: Balancing Realism and Compositionality Improves Text-to-Image Diffusion Models [42.20230095700904]
RealCompoは、新しいトレーニングフリーで、移行フレンドリーなテキスト・ツー・イメージ生成フレームワークである。
復調過程における2つのモデルの強みのバランスをとるために,直感的で斬新なバランサを提案する。
我々のRealCompoは、幅広い空間認識画像拡散モデルとスタイル化された拡散モデルでシームレスに拡張できる。
論文 参考訳(メタデータ) (2024-02-20T10:56:52Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z) - Deep CG2Real: Synthetic-to-Real Translation via Image Disentanglement [78.58603635621591]
画像空間における未ペアの合成-現実翻訳ネットワークの訓練は、厳しい制約下にある。
画像の非交叉シェーディング層とアルベド層に作用する半教師付きアプローチを提案する。
私たちの2段階のパイプラインはまず、物理ベースのレンダリングをターゲットとして、教師付き方法で正確なシェーディングを予測することを学習します。
論文 参考訳(メタデータ) (2020-03-27T21:45:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。