Fugu-MT 論文翻訳(概要): DreamPaint: Few-Shot Inpainting of E-Commerce Items for Virtual Try-On without 3D Modeling

論文の概要: DreamPaint: Few-Shot Inpainting of E-Commerce Items for Virtual Try-On without 3D Modeling

arxiv url: http://arxiv.org/abs/2305.01257v1
Date: Tue, 2 May 2023 08:41:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-03 14:53:58.784322
Title: DreamPaint: Few-Shot Inpainting of E-Commerce Items for Virtual Try-On without 3D Modeling
Title（参考訳）: DreamPaint:3DモデリングなしでバーチャルトライオンにEコマースアイテムを塗る
Authors: Mehmet Saygin Seyfioglu, Karim Bouyarmane, Suren Kumar, Amir Tavanaei, Ismail B. Tutar
Abstract要約: 私たちはDreamPaintを紹介します。DreamPaintは、ユーザが提供するコンテキストイメージ上で、あらゆるEコマース製品にインテリジェントにペンキを塗るフレームワークです。 DreamPaintは、eコマース製品やユーザーコンテキストの3Dモデリングを使わない。
参考スコア（独自算出の注目度）: 9.993379926992473
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce DreamPaint, a framework to intelligently inpaint any e-commerce product on any user-provided context image. The context image can be, for example, the user's own image for virtual try-on of clothes from the e-commerce catalog on themselves, the user's room image for virtual try-on of a piece of furniture from the e-commerce catalog in their room, etc. As opposed to previous augmented-reality (AR)-based virtual try-on methods, DreamPaint does not use, nor does it require, 3D modeling of neither the e-commerce product nor the user context. Instead, it directly uses 2D images of the product as available in product catalog database, and a 2D picture of the context, for example taken from the user's phone camera. The method relies on few-shot fine tuning a pre-trained diffusion model with the masked latents (e.g., Masked DreamBooth) of the catalog images per item, whose weights are then loaded on a pre-trained inpainting module that is capable of preserving the characteristics of the context image. DreamPaint allows to preserve both the product image and the context (environment/user) image without requiring text guidance to describe the missing part (product/context). DreamPaint also allows to intelligently infer the best 3D angle of the product to place at the desired location on the user context, even if that angle was previously unseen in the product's reference 2D images. We compare our results against both text-guided and image-guided inpainting modules and show that DreamPaint yields superior performance in both subjective human study and quantitative metrics.
Abstract（参考訳）: ユーザが提供するコンテキストイメージに対して,任意のeコマース製品をインテリジェントにペイントするフレームワークdreampaintを紹介します。コンテキスト画像は、例えば、電子商取引カタログから服の仮想試着用ユーザ自身の画像、その部屋にある電子商取引カタログから家具の仮想試着用ユーザ部屋画像などである。従来の拡張現実(ar)ベースの仮想トライオン方式とは対照的に、dreampaintはeコマース製品やユーザーコンテキストの3dモデリングを使わない。代わりに、製品カタログデータベースで利用可能な製品の2Dイメージを直接使用し、例えばユーザーの携帯電話カメラから撮影した2D画像を使用する。この方法は、アイテムごとのカタログ画像のマスク付き潜伏子(例:Masked DreamBooth)で事前訓練された拡散モデルを調整し、その重みを、文脈画像の特徴を保存することができる事前訓練された塗装モジュールにロードする。 dreampaintは、欠けている部分(製品/コンテキスト)を記述するのにテキストガイダンスを必要とせずに、製品イメージとコンテキスト(環境/ユーザ)イメージの両方を保存できる。 dreampaintはまた、たとえそのアングルがこれまで製品の参照2dイメージに認識されていなかったとしても、ユーザーのコンテキストで所望の場所に配置する製品の最適な3d角度をインテリジェントに推測することができる。我々は,テキスト誘導と画像誘導の両方の塗装モジュールと比較し,DreamPaintが主観的ヒト研究と定量的測定の両方において優れた性能を発揮することを示す。

関連論文リスト

ArtiScene: Language-Driven Artistic 3D Scene Generation Through Image Intermediary [37.41274496314127]
ArtiSceneは、シーンデザインのためのトレーニング不要の自動パイプラインである。シーン記述から2D画像を生成し、オブジェクトの形状と外観を抽出し、3Dモデルを作成する。測定基準によってレイアウトと美的品質の大きなマージンで最先端のベンチマークを上回ります。
論文参考訳（メタデータ） (2025-05-31T23:03:54Z)
Visibility-Uncertainty-guided 3D Gaussian Inpainting via Scene Conceptional Learning [63.94919846010485]
3DGI)は、複数の入力ビューから補完的な視覚的・意味的手がかりを効果的に活用することが困難である。本稿では,異なる入力ビュー間での3Dポイントの視認性不確実性を計測し,それらを用いて3DGIを誘導する手法を提案する。 ViSibility-uncerTainty-guided 3DGIとシーンコンセプトAl学習を統合し,新しい3DGIフレームワークであるVISTAを構築した。
論文参考訳（メタデータ） (2025-04-23T06:21:11Z)
PoseEmbroider: Towards a 3D, Visual, Semantic-aware Human Pose Representation [38.958695275774616]
検索方式で訓練された新しいトランスフォーマーモデルを導入し、上記のモダリティの組み合わせを任意の入力として利用できるようにする。本稿では,(1)オプションのテキストキューによる画像からのSMPL回帰と(2)きめ細かな命令生成のタスクに対する,そのような埋め込みされたポーズ表現の可能性を示す。
論文参考訳（メタデータ） (2024-09-10T14:09:39Z)
Sketch2Scene: Automatic Generation of Interactive 3D Game Scenes from User's Casual Sketches [50.51643519253066]
3Dコンテンツ生成は、ビデオゲーム、映画制作、バーチャルおよび拡張現実など、多くのコンピュータグラフィックスアプリケーションの中心にある。本稿では,インタラクティブでプレイ可能な3Dゲームシーンを自動的に生成するための,新しいディープラーニングベースのアプローチを提案する。
論文参考訳（メタデータ） (2024-08-08T16:27:37Z)
Magic3DSketch: Create Colorful 3D Models From Sketch-Based 3D Modeling Guided by Text and Language-Image Pre-Training [2.9600148687385786]
CAD(Computer-Aided Design)のような従来の手法は、しばしば労働集約的でスキルの要求が多すぎるため、初心者には難しい。提案手法であるMagic3DSketchは,スケッチを符号化して3Dメッシュを予測し,テキスト記述でガイドする手法である。また,本手法は既存のテキスト・ツー・3D手法と比較して制御性が高い。
論文参考訳（メタデータ） (2024-07-27T09:59:13Z)
VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model [76.02314305164595]
本研究は,ユーザの要求に応じて結果のカスタマイズが可能な,新たな画像出力フレームワークを提案する。画像のマスキング部分とマスキング部分のテキスト記述を自動的に抽出し整理するマルチモーダル大言語モデル(MLLM)を利用する。さらに、画像の特定の空間領域とテキストプロンプトの対応する部分との相互作用を強化するために、特別にCentral-Total-Surrounding (CTS) と呼ばれるCentral-Attentionモジュールが精巧に設計されている。
論文参考訳（メタデータ） (2024-06-03T07:14:19Z)
Paint by Inpaint: Learning to Add Image Objects by Removing Them First [8.399234415641319]
我々は、画像にオブジェクトを効果的に付加して、塗布過程を逆転させる拡散モデルを訓練する。その結果,トレーニングされたモデルは,オブジェクトの追加タスクと一般的な編集タスクの両方において,既存のモデルを上回っていることがわかった。
論文参考訳（メタデータ） (2024-04-28T15:07:53Z)
3D Congealing: 3D-Aware Image Alignment in the Wild [44.254247801001675]
3D Congealingは、意味的に類似したオブジェクトをキャプチャする2D画像の3D対応アライメントの問題である。形状テンプレートやポーズ,あるいは任意のカメラパラメータを仮定することなく,タスクに対処する一般的なフレームワークを導入する。我々のフレームワークは、対応マッチング、ポーズ推定、画像編集といった様々なタスクに利用できる。
論文参考訳（メタデータ） (2024-04-02T17:32:12Z)
Reality's Canvas, Language's Brush: Crafting 3D Avatars from Monocular Video [14.140380599168628]
ReCaLaBは、単一のRGBビデオから高忠実な3Dアバターを学習するパイプラインだ。ポーズ条件のNeRFは、人間の対象を標準的T目的で容積的に表現するように最適化される。これにより、画像条件付き拡散モデルにより、3Dアバターの外観とポーズをアニメーション化し、これまで見えなかった人間の動きを伴う映像シーケンスを作成することができる。
論文参考訳（メタデータ） (2023-12-08T01:53:06Z)
Single-Shot Implicit Morphable Faces with Consistent Texture Parameterization [91.52882218901627]
本稿では,3次元形態素な顔モデルを構築するための新しい手法を提案する。本手法は, 最先端手法と比較して, フォトリアリズム, 幾何, 表現精度を向上する。
論文参考訳（メタデータ） (2023-05-04T17:58:40Z)
SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文参考訳（メタデータ） (2023-02-02T18:59:16Z)
Cross-Modal 3D Shape Generation and Manipulation [62.50628361920725]
本稿では,2次元のモダリティと暗黙の3次元表現を共用した多モード生成モデルを提案する。グレースケールラインスケッチとレンダリングカラー画像の2つの代表的な2次元モーダル性について,本フレームワークの評価を行った。
論文参考訳（メタデータ） (2022-07-24T19:22:57Z)
CAMPARI: Camera-Aware Decomposed Generative Neural Radiance Fields [67.76151996543588]
画像だけでなく,カメラデータ分布を忠実に復元する3次元およびカメラ認識生成モデルについて検討した。テスト時に、私たちのモデルは、カメラを明示的に制御し、シーンの形状と外観で画像を生成します。
論文参考訳（メタデータ） (2021-03-31T17:59:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。