論文の概要: Automated Virtual Product Placement and Assessment in Images using Diffusion Models
- arxiv url: http://arxiv.org/abs/2405.01130v1
- Date: Thu, 2 May 2024 09:44:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 17:04:04.941660
- Title: Automated Virtual Product Placement and Assessment in Images using Diffusion Models
- Title(参考訳): 拡散モデルを用いた画像の自動仮想製品配置と評価
- Authors: Mohammad Mahmudul Alam, Negin Sokhandan, Emmett Goodman,
- Abstract要約: 本稿では,新しい3段階完全自動化VPPシステムを提案する。
第1段階では、言語誘導画像セグメンテーションモデルにより、製品塗布のための画像内の最適な領域を特定する。
第2段階では、いくつかの製品イメージを微調整した安定拡散(SD)を使用して、以前に特定された候補領域に製品を塗布する。
最終段階では、低画質の画像を効果的に取り出すために設計された「アライメントモジュール」が導入されている。
- 参考スコア(独自算出の注目度): 1.63075356372232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Virtual Product Placement (VPP) applications, the discrete integration of specific brand products into images or videos has emerged as a challenging yet important task. This paper introduces a novel three-stage fully automated VPP system. In the first stage, a language-guided image segmentation model identifies optimal regions within images for product inpainting. In the second stage, Stable Diffusion (SD), fine-tuned with a few example product images, is used to inpaint the product into the previously identified candidate regions. The final stage introduces an "Alignment Module", which is designed to effectively sieve out low-quality images. Comprehensive experiments demonstrate that the Alignment Module ensures the presence of the intended product in every generated image and enhances the average quality of images by 35%. The results presented in this paper demonstrate the effectiveness of the proposed VPP system, which holds significant potential for transforming the landscape of virtual advertising and marketing strategies.
- Abstract(参考訳): 仮想プロダクトプレースメント(VPP)アプリケーションでは、特定のブランド製品のイメージやビデオへの個別の統合は、難しいが重要な課題として現れている。
本稿では,新しい3段階完全自動化VPPシステムを提案する。
第1段階では、言語誘導画像セグメンテーションモデルにより、製品塗布のための画像内の最適な領域を特定する。
第2段階では、いくつかの製品イメージを微調整した安定拡散(SD)を使用して、以前に特定された候補領域に製品を塗布する。
最終段階では、低画質の画像を効果的に取り出すために設計された「アライメントモジュール」が導入されている。
総合的な実験により、アライメントモジュールは生成した画像ごとに意図した製品の存在を保証し、画像の平均品質を35%向上させる。
本稿では,仮想広告とマーケティング戦略を変革する大きな可能性を秘めているVPPシステムの有効性を実証する。
関連論文リスト
- Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。
我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。
第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文 参考訳(メタデータ) (2024-10-01T17:29:43Z) - SpotActor: Training-Free Layout-Controlled Consistent Image Generation [43.2870588035256]
双対セマンティックラテント空間における最適化による二元エネルギー誘導の新しい形式化を提案する。
本研究では,レイアウト条件付き後方更新ステージと一貫した前方サンプリングステージを備えたトレーニングフリーパイプラインSpotActorを提案する。
その結果、SpotActorはこのタスクの期待を達成し、実用的な応用の可能性を示した。
論文 参考訳(メタデータ) (2024-09-07T11:52:48Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model [76.02314305164595]
本研究は,ユーザの要求に応じて結果のカスタマイズが可能な,新たな画像出力フレームワークを提案する。
画像のマスキング部分とマスキング部分のテキスト記述を自動的に抽出し整理するマルチモーダル大言語モデル(MLLM)を利用する。
さらに、画像の特定の空間領域とテキストプロンプトの対応する部分との相互作用を強化するために、特別にCentral-Total-Surrounding (CTS) と呼ばれるCentral-Attentionモジュールが精巧に設計されている。
論文 参考訳(メタデータ) (2024-06-03T07:14:19Z) - Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - C-VTON: Context-Driven Image-Based Virtual Try-On Network [1.0832844764942349]
本稿では,選択した衣服を対象者に確実に転送するコンテキスト駆動型仮想トライオンネットワーク(C-VTON)を提案する。
C-VTONパイプラインのコアには、(i)入力画像中の人物のポーズに目的の衣服を効率よく整列する幾何マッチング手順と、(ii)最終試行結果に様々な種類の文脈情報を利用する強力な画像生成装置とがある。
論文 参考訳(メタデータ) (2022-12-08T17:56:34Z) - VISTA: Vision Transformer enhanced by U-Net and Image Colorfulness Frame
Filtration for Automatic Retail Checkout [0.7250756081498245]
ビデオシーケンスから個々のフレームをセグメント化し分類することを提案する。
セグメンテーション法は、統一された単一製品アイテムと手作業のセグメンテーションと、エントロピーマスキングからなる。
我々のベストシステムは、AIシティチャレンジ2022トラック4で3位を獲得し、F1スコアは0.4545である。
論文 参考訳(メタデータ) (2022-04-23T08:54:28Z) - IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。
我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。
IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文 参考訳(メタデータ) (2021-04-13T02:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。