論文の概要: SwapAnything: Enabling Arbitrary Object Swapping in Personalized Visual Editing
- arxiv url: http://arxiv.org/abs/2404.05717v2
- Date: Mon, 6 May 2024 04:37:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 22:56:46.072624
- Title: SwapAnything: Enabling Arbitrary Object Swapping in Personalized Visual Editing
- Title(参考訳): SwapAnything: パーソナライズされたビジュアル編集における任意オブジェクトスワッピングの実現
- Authors: Jing Gu, Yilin Wang, Nanxuan Zhao, Wei Xiong, Qing Liu, Zhifei Zhang, He Zhang, Jianming Zhang, HyunJoon Jung, Xin Eric Wang,
- Abstract要約: SwapAnythingは、イメージ内の任意のオブジェクトを参照によって与えられるパーソナライズされた概念に置き換えることのできる、新しいフレームワークである。
1)主主題ではなく任意の対象や部分の精密な制御,(2)コンテキスト画素のより忠実な保存,(3)イメージへのパーソナライズされた概念の適応,の3つの特徴がある。
- 参考スコア(独自算出の注目度): 51.857176097841936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective editing of personal content holds a pivotal role in enabling individuals to express their creativity, weaving captivating narratives within their visual stories, and elevate the overall quality and impact of their visual content. Therefore, in this work, we introduce SwapAnything, a novel framework that can swap any objects in an image with personalized concepts given by the reference, while keeping the context unchanged. Compared with existing methods for personalized subject swapping, SwapAnything has three unique advantages: (1) precise control of arbitrary objects and parts rather than the main subject, (2) more faithful preservation of context pixels, (3) better adaptation of the personalized concept to the image. First, we propose targeted variable swapping to apply region control over latent feature maps and swap masked variables for faithful context preservation and initial semantic concept swapping. Then, we introduce appearance adaptation, to seamlessly adapt the semantic concept into the original image in terms of target location, shape, style, and content during the image generation process. Extensive results on both human and automatic evaluation demonstrate significant improvements of our approach over baseline methods on personalized swapping. Furthermore, SwapAnything shows its precise and faithful swapping abilities across single object, multiple objects, partial object, and cross-domain swapping tasks. SwapAnything also achieves great performance on text-based swapping and tasks beyond swapping such as object insertion.
- Abstract(参考訳): 個人のコンテンツを効果的に編集することは、個人が創造性を表現し、物語を視覚的ストーリーの中に織り込み、視覚的コンテンツの全体的な品質と影響を高める上で重要な役割を担っている。
そこで本研究では,画像内の任意のオブジェクトを参照によって付与されるパーソナライズされた概念に置き換えると同時に,コンテキストを一定に保つ新しいフレームワークであるSwapAnythingを紹介する。
パーソナライズされた被写体交換法と比較して,SwapAnythingには,(1)主対象ではなく任意の対象物や部分の精密な制御,(2)コンテキスト画素のより忠実な保存,(3)イメージへのパーソナライズされた概念の適応,の3つの利点がある。
まず、潜在特徴マップに領域制御を適用し、マスク付き変数を忠実なコンテキスト保存と初期意味概念スワップに置き換えることを目的とした変数スワップを提案する。
そして、画像生成過程において、ターゲット位置、形状、スタイル、内容の観点で、意味概念を元の画像にシームレスに適応させる外観適応を導入する。
個人別スワップにおけるベースライン法よりも, 人的, 自動的な評価を総合的に行った結果, アプローチの大幅な改善が示された。
さらにSwapAnythingは、単一のオブジェクト、複数のオブジェクト、部分オブジェクト、クロスドメインスワップタスクにまたがる正確で忠実なスワップ機能を示している。
SwapAnythingはテキストベースのスワップや、オブジェクト挿入のようなスワップ以外のタスクでも優れたパフォーマンスを実現している。
関連論文リスト
- InstantStyle-Plus: Style Transfer with Content-Preserving in Text-to-Image Generation [4.1177497612346]
スタイル転送(Style Transfer)は、視覚的なスタイルを取り入れながら、オリジナルの本質を維持するイメージを作成するために設計された革新的なプロセスである。
InstantStyle-Plusは、ターゲットスタイルをシームレスに統合しながら、オリジナルコンテンツの整合性を優先するアプローチである。
論文 参考訳(メタデータ) (2024-06-30T18:05:33Z) - Choose What You Need: Disentangled Representation Learning for Scene Text Recognition, Removal and Editing [47.421888361871254]
シーンテキスト画像は、スタイル情報(フォント、背景)だけでなく、コンテンツ情報(文字、テクスチャ)も含む。
従来の表現学習手法では、全てのタスクに密結合した特徴を使い、結果として準最適性能が得られる。
本稿では,適応性向上のための2種類の特徴を両立させることを目的としたDAR(Disentangled Representation Learning framework)を提案する。
論文 参考訳(メタデータ) (2024-05-07T15:00:11Z) - Customizing Text-to-Image Diffusion with Camera Viewpoint Control [53.621518249820745]
モデルカスタマイズのためのカメラ視点の明示的な制御を可能にする新しいタスクを導入する。
これにより、テキストプロンプトによって、さまざまな背景シーンのオブジェクトプロパティを変更することができます。
本稿では,新しいオブジェクトのレンダリング・ビュー依存的な特徴に対して,2次元拡散過程を条件付けることを提案する。
論文 参考訳(メタデータ) (2024-04-18T16:59:51Z) - ObjectCompose: Evaluating Resilience of Vision-Based Models on Object-to-Background Compositional Changes [64.57705752579207]
本研究では,視覚モデルによる多様な背景背景環境に対するレジリエンスを評価する。
我々は、画像から画像への変換、画像から画像への変換、および画像から画像への変換モデルの生成機能を利用して、オブジェクトから背景への変換を自動的に生成する。
論文 参考訳(メタデータ) (2024-03-07T17:48:48Z) - CustomNet: Zero-shot Object Customization with Variable-Viewpoints in
Text-to-Image Diffusion Models [85.69959024572363]
CustomNetは、オブジェクトのカスタマイズプロセスに3Dの新しいビュー合成機能を明示的に組み込んだ、新しいオブジェクトカスタマイズアプローチである。
テキスト記述や特定のユーザ定義画像による位置制御とフレキシブルな背景制御を実現するための繊細な設計を導入する。
本手法は,テスト時間最適化を伴わないゼロショットオブジェクトのカスタマイズを容易にし,視点,位置,背景を同時制御する。
論文 参考訳(メタデータ) (2023-10-30T17:50:14Z) - Photoswap: Personalized Subject Swapping in Images [56.2650908740358]
Photowapは参照画像から対象の視覚概念を学習し、事前訓練された拡散モデルを用いて対象画像に置き換える。
Photowapは、被験者のスワップ、背景保存、全体的な品質において、人間の評価におけるベースラインの手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-05-29T17:56:13Z) - Highly Personalized Text Embedding for Image Manipulation by Stable
Diffusion [34.662798793560995]
高度にパーソナライズされた(PerHi)テキスト埋め込みを用いたパーソナライズ手法を提案する。
本手法では, モデル微調整や識別子を必要としないが, 背景, テクスチャ, 動きを1つの画像とターゲットテキストで操作できる。
論文 参考訳(メタデータ) (2023-03-15T17:07:45Z) - Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space
Navigation [136.53288628437355]
コントロール可能なセマンティックイメージ編集により、ユーザーはクリック数回で画像属性全体を変更できる。
現在のアプローチでは、絡み合った属性編集、グローバルなイメージアイデンティティの変更、フォトリアリズムの低下に悩まされることが多い。
本稿では,主に定性評価に焦点を当てた先行研究とは異なり,制御可能な編集性能を測定するための定量的評価手法を提案する。
論文 参考訳(メタデータ) (2021-02-01T21:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。