論文の概要: DreamPaint: Few-Shot Inpainting of E-Commerce Items for Virtual Try-On
without 3D Modeling
- arxiv url: http://arxiv.org/abs/2305.01257v1
- Date: Tue, 2 May 2023 08:41:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 14:53:58.784322
- Title: DreamPaint: Few-Shot Inpainting of E-Commerce Items for Virtual Try-On
without 3D Modeling
- Title(参考訳): DreamPaint:3DモデリングなしでバーチャルトライオンにEコマースアイテムを塗る
- Authors: Mehmet Saygin Seyfioglu, Karim Bouyarmane, Suren Kumar, Amir Tavanaei,
Ismail B. Tutar
- Abstract要約: 私たちはDreamPaintを紹介します。DreamPaintは、ユーザが提供するコンテキストイメージ上で、あらゆるEコマース製品にインテリジェントにペンキを塗るフレームワークです。
DreamPaintは、eコマース製品やユーザーコンテキストの3Dモデリングを使わない。
- 参考スコア(独自算出の注目度): 9.993379926992473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce DreamPaint, a framework to intelligently inpaint any e-commerce
product on any user-provided context image. The context image can be, for
example, the user's own image for virtual try-on of clothes from the e-commerce
catalog on themselves, the user's room image for virtual try-on of a piece of
furniture from the e-commerce catalog in their room, etc. As opposed to
previous augmented-reality (AR)-based virtual try-on methods, DreamPaint does
not use, nor does it require, 3D modeling of neither the e-commerce product nor
the user context. Instead, it directly uses 2D images of the product as
available in product catalog database, and a 2D picture of the context, for
example taken from the user's phone camera. The method relies on few-shot fine
tuning a pre-trained diffusion model with the masked latents (e.g., Masked
DreamBooth) of the catalog images per item, whose weights are then loaded on a
pre-trained inpainting module that is capable of preserving the characteristics
of the context image. DreamPaint allows to preserve both the product image and
the context (environment/user) image without requiring text guidance to
describe the missing part (product/context). DreamPaint also allows to
intelligently infer the best 3D angle of the product to place at the desired
location on the user context, even if that angle was previously unseen in the
product's reference 2D images. We compare our results against both text-guided
and image-guided inpainting modules and show that DreamPaint yields superior
performance in both subjective human study and quantitative metrics.
- Abstract(参考訳): ユーザが提供するコンテキストイメージに対して,任意のeコマース製品をインテリジェントにペイントするフレームワークdreampaintを紹介します。
コンテキスト画像は、例えば、電子商取引カタログから服の仮想試着用ユーザ自身の画像、その部屋にある電子商取引カタログから家具の仮想試着用ユーザ部屋画像などである。
従来の拡張現実(ar)ベースの仮想トライオン方式とは対照的に、dreampaintはeコマース製品やユーザーコンテキストの3dモデリングを使わない。
代わりに、製品カタログデータベースで利用可能な製品の2Dイメージを直接使用し、例えばユーザーの携帯電話カメラから撮影した2D画像を使用する。
この方法は、アイテムごとのカタログ画像のマスク付き潜伏子(例:Masked DreamBooth)で事前訓練された拡散モデルを調整し、その重みを、文脈画像の特徴を保存することができる事前訓練された塗装モジュールにロードする。
dreampaintは、欠けている部分(製品/コンテキスト)を記述するのにテキストガイダンスを必要とせずに、製品イメージとコンテキスト(環境/ユーザ)イメージの両方を保存できる。
dreampaintはまた、たとえそのアングルがこれまで製品の参照2dイメージに認識されていなかったとしても、ユーザーのコンテキストで所望の場所に配置する製品の最適な3d角度をインテリジェントに推測することができる。
我々は,テキスト誘導と画像誘導の両方の塗装モジュールと比較し,DreamPaintが主観的ヒト研究と定量的測定の両方において優れた性能を発揮することを示す。
関連論文リスト
- 3D Congealing: 3D-Aware Image Alignment in the Wild [44.254247801001675]
3D Congealingは、意味的に類似したオブジェクトをキャプチャする2D画像の3D対応アライメントの問題である。
形状テンプレートやポーズ,あるいは任意のカメラパラメータを仮定することなく,タスクに対処する一般的なフレームワークを導入する。
我々のフレームワークは、対応マッチング、ポーズ推定、画像編集といった様々なタスクに利用できる。
論文 参考訳(メタデータ) (2024-04-02T17:32:12Z) - Reality's Canvas, Language's Brush: Crafting 3D Avatars from Monocular Video [14.140380599168628]
ReCaLaBは、単一のRGBビデオから高忠実な3Dアバターを学習するパイプラインだ。
ポーズ条件のNeRFは、人間の対象を標準的T目的で容積的に表現するように最適化される。
これにより、画像条件付き拡散モデルにより、3Dアバターの外観とポーズをアニメーション化し、これまで見えなかった人間の動きを伴う映像シーケンスを作成することができる。
論文 参考訳(メタデータ) (2023-12-08T01:53:06Z) - RealFill: Reference-Driven Generation for Authentic Image Completion [87.26715212585347]
画像補完のための新しい生成手法であるRealFillを提案する。
RealFillは、そこにあるべきコンテンツで、画像の欠落した領域を埋める。
我々はRealFillを,多様かつ困難なシナリオの集合をカバーする新しい画像補完ベンチマークで評価する。
論文 参考訳(メタデータ) (2023-09-28T17:59:29Z) - ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image
Collections [71.46546520120162]
単眼画像から動物体のような3D関節形状を推定することは、本質的に困難である。
本稿では,スパース画像コレクションから各物体の形状を再構築する自己教師型フレームワークARTIC3Dを提案する。
我々は、剛性部分変換の下で、描画された形状とテクスチャを微調整することで、現実的なアニメーションを作成する。
論文 参考訳(メタデータ) (2023-06-07T17:47:50Z) - Single-Shot Implicit Morphable Faces with Consistent Texture
Parameterization [91.52882218901627]
本稿では,3次元形態素な顔モデルを構築するための新しい手法を提案する。
本手法は, 最先端手法と比較して, フォトリアリズム, 幾何, 表現精度を向上する。
論文 参考訳(メタデータ) (2023-05-04T17:58:40Z) - Text2Face: A Multi-Modal 3D Face Model [1.0552465253379133]
そこで本研究では,3次元顔形状をテキストプロンプトを用いて直接的かつ完全に定義できる,最初の3次元変形可能なモデリング手法を提案する。
マルチモーダル学習における作業に基づいて、FLAMEヘッドモデルを共通の画像とテキストの潜在空間に拡張する。
当社の方法であるText2Faceには,すでに自然言語で入力されている警察用フォトフィットの生成など,多くの応用がある。
論文 参考訳(メタデータ) (2023-03-05T15:06:54Z) - SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。
フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文 参考訳(メタデータ) (2023-02-02T18:59:16Z) - Cross-Modal 3D Shape Generation and Manipulation [62.50628361920725]
本稿では,2次元のモダリティと暗黙の3次元表現を共用した多モード生成モデルを提案する。
グレースケールラインスケッチとレンダリングカラー画像の2つの代表的な2次元モーダル性について,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2022-07-24T19:22:57Z) - CAMPARI: Camera-Aware Decomposed Generative Neural Radiance Fields [67.76151996543588]
画像だけでなく,カメラデータ分布を忠実に復元する3次元およびカメラ認識生成モデルについて検討した。
テスト時に、私たちのモデルは、カメラを明示的に制御し、シーンの形状と外観で画像を生成します。
論文 参考訳(メタデータ) (2021-03-31T17:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。