論文の概要: An Inpainting-Infused Pipeline for Attire and Background Replacement
- arxiv url: http://arxiv.org/abs/2402.03501v1
- Date: Mon, 5 Feb 2024 20:34:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 18:02:21.752584
- Title: An Inpainting-Infused Pipeline for Attire and Background Replacement
- Title(参考訳): Attire and background replacement 用塗料注入パイプライン
- Authors: Felipe Rodrigues Perche-Mahlow and Andr\'e Felipe-Zanella and William
Alberto Cruz-Casta\~neda and Marcellus Amadeus
- Abstract要約: 我々は、画像操作を重視したGenAIとコンピュータビジョンの高度な技術を活用し、統合されたアプローチを探求する。
この手法は、深さ推定、背景の生成と置換など、いくつかの段階を通じて展開される。
本研究で行った実験は, 視覚的に捕食するコンテンツを生み出す可能性を強調し, 方法論の有効性を裏付けるものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, groundbreaking advancements in Generative Artificial
Intelligence (GenAI) have triggered a transformative paradigm shift,
significantly influencing various domains. In this work, we specifically
explore an integrated approach, leveraging advanced techniques in GenAI and
computer vision emphasizing image manipulation. The methodology unfolds through
several stages, including depth estimation, the creation of inpaint masks based
on depth information, the generation and replacement of backgrounds utilizing
Stable Diffusion in conjunction with Latent Consistency Models (LCMs), and the
subsequent replacement of clothes and application of aesthetic changes through
an inpainting pipeline. Experiments conducted in this study underscore the
methodology's efficacy, highlighting its potential to produce visually
captivating content. The convergence of these advanced techniques allows users
to input photographs of individuals and manipulate them to modify clothing and
background based on specific prompts without manually input inpainting masks,
effectively placing the subjects within the vast landscape of creative
imagination.
- Abstract(参考訳): 近年、ジェネレーティブ・人工知能(GenAI)の進歩は変革的パラダイムシフトを引き起こし、様々な領域に大きな影響を与えている。
本稿では,画像操作を重視したGenAIとコンピュータビジョンの高度な技術を活用し,統合的なアプローチを特に検討する。
この手法は、深度推定、深度情報に基づく塗装マスクの作成、LCM(Latent Consistency Models)と組み合わせて安定拡散を利用した背景の生成と置換、続く衣服の交換、塗装パイプラインによる美的変化の応用など、いくつかの段階を通じて展開されている。
本研究で行った実験は,視覚的に捕食するコンテンツを生み出す可能性を強調し,方法論の有効性を強調した。
これらの高度な手法の収束により、ユーザーは個人の写真を入力し、特定のプロンプトに基づいて衣服や背景を変更することができる。
関連論文リスト
- TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。
TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。
本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-07T08:52:21Z) - Sketch-guided Image Inpainting with Partial Discrete Diffusion Process [5.005162730122933]
スケッチ誘導インペイントのための新しい部分離散拡散法(PDDP)を提案する。
PDDPは画像のマスキング領域を破損させ、手描きスケッチで条件付けられたこれらのマスキング領域を再構築する。
提案するトランスモジュールは,2つの入力を受信する。マスク領域を含む画像はインペイントされ,クエリスケッチは逆拡散過程をモデル化する。
論文 参考訳(メタデータ) (2024-04-18T07:07:38Z) - BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed
Dual-Branch Diffusion [61.90969199199739]
BrushNetは、ピクセルレベルのマスク付きイメージ機能を事前訓練されたDMに埋め込むために設計された、新しいプラグアンドプレイデュアルブランチモデルである。
BrushNetは、画像品質、マスク領域保存、テキストコヒーレンスを含む7つの主要な指標で、既存のモデルよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-11T17:59:31Z) - Disentangled Representation Learning for Controllable Person Image
Generation [29.719070087384512]
本稿ではDRL-CPGという新しいフレームワークを提案する。
我々の知る限り、私たちは人物画像生成のためのトランスフォーマーによる非絡み合いの潜在表現を初めて学習する。
論文 参考訳(メタデータ) (2023-12-10T07:15:58Z) - Masking Improves Contrastive Self-Supervised Learning for ConvNets, and Saliency Tells You Where [63.61248884015162]
我々は、畳み込みニューラルネットワークのためのコントラスト学習フレームワークにマスキング操作を組み込むことの負担を軽減することを目的としている。
マスクされた領域が、前景と背景の間に均等に分散されていることを考慮し、塩分濃度の制約を明示的に考慮することを提案する。
論文 参考訳(メタデータ) (2023-09-22T09:58:38Z) - Deep Image Matting: A Comprehensive Survey [85.77905619102802]
本稿では,ディープラーニング時代における画像マッチングの最近の進歩を概観する。
本稿では,補助的な入力ベースの画像マッチングと,自動的な画像マッチングという,2つの基本的なサブタスクに焦点を当てる。
画像マッチングの関連応用について論じ,今後の研究への課題と可能性を明らかにする。
論文 参考訳(メタデータ) (2023-04-10T15:48:55Z) - Expanding the Latent Space of StyleGAN for Real Face Editing [4.1715767752637145]
セマンティックな操作に事前訓練されたStyleGANを使用するために、顔編集技術の急増が提案されている。
実際の画像を編集するには、最初に入力された画像をStyleGANの潜伏変数に変換する必要がある。
本稿では,低歪みと高編集性の間のトレードオフを断ち切るために,コンテンツ機能の追加により,StyleGANの潜伏空間を拡張する手法を提案する。
論文 参考訳(メタデータ) (2022-04-26T18:27:53Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - Look here! A parametric learning based approach to redirect visual
attention [49.609412873346386]
画像領域を微妙な画像編集によってより注目度の高いものにするための自動手法を提案する。
我々のモデルは、前景および背景画像領域に適用可能な、異なるグローバルパラメトリック変換セットを予測する。
編集により、任意の画像サイズでインタラクティブなレートでの推論が可能になり、簡単に動画に一般化できる。
論文 参考訳(メタデータ) (2020-08-12T16:08:36Z) - Interactive Neural Style Transfer with Artists [6.130486652666935]
本稿では,絵師と様々なニューラルスタイルのトランスファーアルゴリズムが実際のキャンバス上で相互作用する,インタラクティブな絵画プロセスを提案する。
我々は,一組の絵画画像を集め,ニューラルスタイル転送アルゴリズムの予測性に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2020-03-14T15:27:44Z) - Learning Transformation-Aware Embeddings for Image Forensics [15.484408315588569]
Image Provenance Analysisは、コンテンツを共有するさまざまな操作されたイメージバージョン間の関係を見つけることを目的としている。
証明分析のための主要なサブプロブレムの1つは、完全なコンテンツを共有したり、ほぼ重複している画像の編集順序である。
本稿では,1つの画像から生成した画像に対して,変換を通じて妥当な順序付けを行うための,新しい深層学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-01-13T22:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。