論文の概要: DreamPainter: Image Background Inpainting for E-commerce Scenarios
- arxiv url: http://arxiv.org/abs/2508.02155v1
- Date: Mon, 04 Aug 2025 07:54:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.236604
- Title: DreamPainter: Image Background Inpainting for E-commerce Scenarios
- Title(参考訳): DreamPainter:Eコマースシナリオの背景画
- Authors: Sijie Zhao, Jing Cheng, Yaoyao Wu, Hao Xu, Shaohui Jiao,
- Abstract要約: 我々はDreamPainterを紹介した。DreamPainterはテキストプロンプトと参照画像情報を付加的な制御信号として組み込む新しいフレームワークである。
提案手法は,テキストプロンプトと参照画像情報の両方を効果的に統合しつつ,高い製品一貫性を維持しながら,最先端の手法よりも優れている。
- 参考スコア(独自算出の注目度): 9.12444106077783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although diffusion-based image genenation has been widely explored and applied, background generation tasks in e-commerce scenarios still face significant challenges. The first challenge is to ensure that the generated products are consistent with the given product inputs while maintaining a reasonable spatial arrangement, harmonious shadows, and reflections between foreground products and backgrounds. Existing inpainting methods fail to address this due to the lack of domain-specific data. The second challenge involves the limitation of relying solely on text prompts for image control, as effective integrating visual information to achieve precise control in inpainting tasks remains underexplored. To address these challenges, we introduce DreamEcom-400K, a high-quality e-commerce dataset containing accurate product instance masks, background reference images, text prompts, and aesthetically pleasing product images. Based on this dataset, we propose DreamPainter, a novel framework that not only utilizes text prompts for control but also flexibly incorporates reference image information as an additional control signal. Extensive experiments demonstrate that our approach significantly outperforms state-of-the-art methods, maintaining high product consistency while effectively integrating both text prompt and reference image information.
- Abstract(参考訳): 拡散に基づく画像生成は広く研究され応用されているが、電子商取引シナリオにおける背景生成タスクは依然として重大な課題に直面している。
最初の課題は、生成された製品が適切な空間配置、調和した影、前景の製品と背景の間の反射を維持しながら、与えられた製品入力と一致していることを保証することである。
既存のインペインティングメソッドでは、ドメイン固有のデータがないため、この問題に対処できない。
第2の課題は、画像制御のためのテキストプロンプトのみに依存することの制限である。
これらの課題に対処するために、正確な製品インスタンスマスク、背景参照画像、テキストプロンプト、美的な製品イメージを含む高品質なeコマースデータセットであるDreamEcom-400Kを紹介した。
このデータセットに基づいて,テキストプロンプトを制御に利用するだけでなく,参照画像情報を付加的な制御信号として柔軟に組み込む新しいフレームワークDreamPainterを提案する。
提案手法は,テキストプロンプトと参照画像情報の両方を効果的に統合しつつ,高い製品一貫性を維持しながら,最先端の手法を著しく上回ることを示す。
関連論文リスト
- MagicEraser: Erasing Any Objects via Semantics-Aware Control [40.683569840182926]
オブジェクト消去タスクに適した拡散モデルに基づくフレームワークであるMagicEraserを紹介する。
MagicEraserは、望ましくないアーティファクトを緩和しながら、コンテンツ生成の微細かつ効果的な制御を実現する。
論文 参考訳(メタデータ) (2024-10-14T07:03:14Z) - E-Commerce Inpainting with Mask Guidance in Controlnet for Reducing Overcompletion [13.67619785783182]
本稿では,拡散モデル生成におけるコア痛点,すなわちオーバーコンプリートを系統的に解析し,対処する。
本手法は実用化において有望な成果を上げており,本分野でのインスピレーションとなる技術レポートとして機能することを願っている。
論文 参考訳(メタデータ) (2024-09-15T10:10:13Z) - Improving Text-guided Object Inpainting with Semantic Pre-inpainting [95.17396565347936]
我々は,典型的な単一ステージオブジェクトを2つのカスケードプロセス – セマンティックプリペイントと高磁場オブジェクト生成 – に分解する。
これを実現するために,トランスフォーマーをベースとしたセマンティックインパインとオブジェクトインパインティング拡散モデルをカスケードし,新しいCAscaded Transformer-Diffusionフレームワークを実現する。
論文 参考訳(メタデータ) (2024-09-12T17:55:37Z) - Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - RefFusion: Reference Adapted Diffusion Models for 3D Scene Inpainting [63.567363455092234]
RefFusionは,画像インペイント拡散モデルのマルチスケールパーソナライズに基づく,新しい3Dインペイント手法である。
我々のフレームワークは、制御性を維持しながら、オブジェクト除去の最先端の成果を達成する。
論文 参考訳(メタデータ) (2024-04-16T17:50:02Z) - Locate, Assign, Refine: Taming Customized Promptable Image Inpainting [22.163855501668206]
本稿では,マルチモーダル・プロンプト・イメージ・インパインティング・プロジェクト,新しいタスクモデル,カスタマイズされたイメージ・インパインティングのためのデータを紹介する。
マスクプロンプトに対応する画像中の特定の領域をシームレスに塗布できる,画像塗布の新しいアプローチであるLAR-Genを提案する。
我々のLAR-Genは、ソースイメージのコンテキスト整合性、主観的アイデンティティ整合性、テキスト記述に対する局所的セマンティック整合性、滑らか性整合性を保証するために粗大な方法で採用しています。
論文 参考訳(メタデータ) (2024-03-28T16:07:55Z) - SPIRE: Semantic Prompt-Driven Image Restoration [66.26165625929747]
セマンティック・復元型画像復元フレームワークであるSPIREを開発した。
本手法は,復元強度の量的仕様を言語ベースで記述することで,より詳細な指導を支援する最初のフレームワークである。
本実験は, SPIREの修復性能が, 現状と比較して優れていることを示すものである。
論文 参考訳(メタデータ) (2023-12-18T17:02:30Z) - DreamInpainter: Text-Guided Subject-Driven Image Inpainting with
Diffusion Models [37.133727797607676]
本研究は,テキストガイドによる主題駆動画像の描画について紹介する。
我々は、被写体再現の精度を確保するために、密集した被写体特徴を計算する。
我々は、余分な被写体の詳細を排除するために識別トークン選択モジュールを使用します。
論文 参考訳(メタデータ) (2023-12-05T22:23:19Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - Context-Aware Image Inpainting with Learned Semantic Priors [100.99543516733341]
欠落した内容を推定するために意味的に意味のある前文タスクを導入する。
本研究では,グローバルなセマンティクスと局所的な特徴を適応的に統合した文脈認識型画像インパインティングモデルを提案する。
論文 参考訳(メタデータ) (2021-06-14T08:09:43Z) - PerceptionGAN: Real-world Image Construction from Provided Text through
Perceptual Understanding [11.985768957782641]
本稿では,識別器モジュールに知覚的理解を取り入れ,優れた画像を提供する手法を提案する。
複数の段階で画像分布をモデル化しながら、初期画像に含まれる知覚情報が改善されることを示す。
さらに重要なことに、提案手法は他の最先端のテキストベース画像生成モデルのパイプラインに統合することができる。
論文 参考訳(メタデータ) (2020-07-02T09:23:08Z) - Very Long Natural Scenery Image Prediction by Outpainting [96.8509015981031]
アウトペイントには2つの課題があるため、あまり注意を払わない。
第一の課題は、生成された画像と元の入力の間の空間的および内容的整合性を維持する方法である。
第2の課題は、生成した結果の高品質を維持する方法です。
論文 参考訳(メタデータ) (2019-12-29T16:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。