論文の概要: DreamPaint: Few-Shot Inpainting of E-Commerce Items for Virtual Try-On
without 3D Modeling
- arxiv url: http://arxiv.org/abs/2305.01257v1
- Date: Tue, 2 May 2023 08:41:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 14:53:58.784322
- Title: DreamPaint: Few-Shot Inpainting of E-Commerce Items for Virtual Try-On
without 3D Modeling
- Title(参考訳): DreamPaint:3DモデリングなしでバーチャルトライオンにEコマースアイテムを塗る
- Authors: Mehmet Saygin Seyfioglu, Karim Bouyarmane, Suren Kumar, Amir Tavanaei,
Ismail B. Tutar
- Abstract要約: 私たちはDreamPaintを紹介します。DreamPaintは、ユーザが提供するコンテキストイメージ上で、あらゆるEコマース製品にインテリジェントにペンキを塗るフレームワークです。
DreamPaintは、eコマース製品やユーザーコンテキストの3Dモデリングを使わない。
- 参考スコア(独自算出の注目度): 9.993379926992473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce DreamPaint, a framework to intelligently inpaint any e-commerce
product on any user-provided context image. The context image can be, for
example, the user's own image for virtual try-on of clothes from the e-commerce
catalog on themselves, the user's room image for virtual try-on of a piece of
furniture from the e-commerce catalog in their room, etc. As opposed to
previous augmented-reality (AR)-based virtual try-on methods, DreamPaint does
not use, nor does it require, 3D modeling of neither the e-commerce product nor
the user context. Instead, it directly uses 2D images of the product as
available in product catalog database, and a 2D picture of the context, for
example taken from the user's phone camera. The method relies on few-shot fine
tuning a pre-trained diffusion model with the masked latents (e.g., Masked
DreamBooth) of the catalog images per item, whose weights are then loaded on a
pre-trained inpainting module that is capable of preserving the characteristics
of the context image. DreamPaint allows to preserve both the product image and
the context (environment/user) image without requiring text guidance to
describe the missing part (product/context). DreamPaint also allows to
intelligently infer the best 3D angle of the product to place at the desired
location on the user context, even if that angle was previously unseen in the
product's reference 2D images. We compare our results against both text-guided
and image-guided inpainting modules and show that DreamPaint yields superior
performance in both subjective human study and quantitative metrics.
- Abstract(参考訳): ユーザが提供するコンテキストイメージに対して,任意のeコマース製品をインテリジェントにペイントするフレームワークdreampaintを紹介します。
コンテキスト画像は、例えば、電子商取引カタログから服の仮想試着用ユーザ自身の画像、その部屋にある電子商取引カタログから家具の仮想試着用ユーザ部屋画像などである。
従来の拡張現実(ar)ベースの仮想トライオン方式とは対照的に、dreampaintはeコマース製品やユーザーコンテキストの3dモデリングを使わない。
代わりに、製品カタログデータベースで利用可能な製品の2Dイメージを直接使用し、例えばユーザーの携帯電話カメラから撮影した2D画像を使用する。
この方法は、アイテムごとのカタログ画像のマスク付き潜伏子(例:Masked DreamBooth)で事前訓練された拡散モデルを調整し、その重みを、文脈画像の特徴を保存することができる事前訓練された塗装モジュールにロードする。
dreampaintは、欠けている部分(製品/コンテキスト)を記述するのにテキストガイダンスを必要とせずに、製品イメージとコンテキスト(環境/ユーザ)イメージの両方を保存できる。
dreampaintはまた、たとえそのアングルがこれまで製品の参照2dイメージに認識されていなかったとしても、ユーザーのコンテキストで所望の場所に配置する製品の最適な3d角度をインテリジェントに推測することができる。
我々は,テキスト誘導と画像誘導の両方の塗装モジュールと比較し,DreamPaintが主観的ヒト研究と定量的測定の両方において優れた性能を発揮することを示す。
関連論文リスト
- PoseEmbroider: Towards a 3D, Visual, Semantic-aware Human Pose Representation [38.958695275774616]
検索方式で訓練された新しいトランスフォーマーモデルを導入し、上記のモダリティの組み合わせを任意の入力として利用できるようにする。
本稿では,(1)オプションのテキストキューによる画像からのSMPL回帰と(2)きめ細かな命令生成のタスクに対する,そのような埋め込みされたポーズ表現の可能性を示す。
論文 参考訳(メタデータ) (2024-09-10T14:09:39Z) - Sketch2Scene: Automatic Generation of Interactive 3D Game Scenes from User's Casual Sketches [50.51643519253066]
3Dコンテンツ生成は、ビデオゲーム、映画制作、バーチャルおよび拡張現実など、多くのコンピュータグラフィックスアプリケーションの中心にある。
本稿では,インタラクティブでプレイ可能な3Dゲームシーンを自動的に生成するための,新しいディープラーニングベースのアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-08T16:27:37Z) - Magic3DSketch: Create Colorful 3D Models From Sketch-Based 3D Modeling Guided by Text and Language-Image Pre-Training [2.9600148687385786]
CAD(Computer-Aided Design)のような従来の手法は、しばしば労働集約的でスキルの要求が多すぎるため、初心者には難しい。
提案手法であるMagic3DSketchは,スケッチを符号化して3Dメッシュを予測し,テキスト記述でガイドする手法である。
また,本手法は既存のテキスト・ツー・3D手法と比較して制御性が高い。
論文 参考訳(メタデータ) (2024-07-27T09:59:13Z) - VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model [76.02314305164595]
本研究は,ユーザの要求に応じて結果のカスタマイズが可能な,新たな画像出力フレームワークを提案する。
画像のマスキング部分とマスキング部分のテキスト記述を自動的に抽出し整理するマルチモーダル大言語モデル(MLLM)を利用する。
さらに、画像の特定の空間領域とテキストプロンプトの対応する部分との相互作用を強化するために、特別にCentral-Total-Surrounding (CTS) と呼ばれるCentral-Attentionモジュールが精巧に設計されている。
論文 参考訳(メタデータ) (2024-06-03T07:14:19Z) - 3D Congealing: 3D-Aware Image Alignment in the Wild [44.254247801001675]
3D Congealingは、意味的に類似したオブジェクトをキャプチャする2D画像の3D対応アライメントの問題である。
形状テンプレートやポーズ,あるいは任意のカメラパラメータを仮定することなく,タスクに対処する一般的なフレームワークを導入する。
我々のフレームワークは、対応マッチング、ポーズ推定、画像編集といった様々なタスクに利用できる。
論文 参考訳(メタデータ) (2024-04-02T17:32:12Z) - Reality's Canvas, Language's Brush: Crafting 3D Avatars from Monocular Video [14.140380599168628]
ReCaLaBは、単一のRGBビデオから高忠実な3Dアバターを学習するパイプラインだ。
ポーズ条件のNeRFは、人間の対象を標準的T目的で容積的に表現するように最適化される。
これにより、画像条件付き拡散モデルにより、3Dアバターの外観とポーズをアニメーション化し、これまで見えなかった人間の動きを伴う映像シーケンスを作成することができる。
論文 参考訳(メタデータ) (2023-12-08T01:53:06Z) - Single-Shot Implicit Morphable Faces with Consistent Texture
Parameterization [91.52882218901627]
本稿では,3次元形態素な顔モデルを構築するための新しい手法を提案する。
本手法は, 最先端手法と比較して, フォトリアリズム, 幾何, 表現精度を向上する。
論文 参考訳(メタデータ) (2023-05-04T17:58:40Z) - SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。
フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文 参考訳(メタデータ) (2023-02-02T18:59:16Z) - Cross-Modal 3D Shape Generation and Manipulation [62.50628361920725]
本稿では,2次元のモダリティと暗黙の3次元表現を共用した多モード生成モデルを提案する。
グレースケールラインスケッチとレンダリングカラー画像の2つの代表的な2次元モーダル性について,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2022-07-24T19:22:57Z) - CAMPARI: Camera-Aware Decomposed Generative Neural Radiance Fields [67.76151996543588]
画像だけでなく,カメラデータ分布を忠実に復元する3次元およびカメラ認識生成モデルについて検討した。
テスト時に、私たちのモデルは、カメラを明示的に制御し、シーンの形状と外観で画像を生成します。
論文 参考訳(メタデータ) (2021-03-31T17:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。