論文の概要: PixelMan: Consistent Object Editing with Diffusion Models via Pixel Manipulation and Generation
- arxiv url: http://arxiv.org/abs/2412.14283v1
- Date: Wed, 18 Dec 2024 19:24:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:32:40.742660
- Title: PixelMan: Consistent Object Editing with Diffusion Models via Pixel Manipulation and Generation
- Title(参考訳): PixelMan: ピクセル操作と生成による拡散モデルによる一貫性オブジェクト編集
- Authors: Liyao Jiang, Negar Hassanpour, Mohammad Salameh, Mohammadreza Samadi, Jiao He, Fengyu Sun, Di Niu,
- Abstract要約: PixelManは、Pixel操作と生成を通じて一貫したオブジェクト編集を実現するための、インバージョンフリーでトレーニング不要な方法である。
数16の推論ステップにおいて、PixelManは最先端のトレーニングベースおよびトレーニングフリーメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 15.342060815068347
- License:
- Abstract: Recent research explores the potential of Diffusion Models (DMs) for consistent object editing, which aims to modify object position, size, and composition, etc., while preserving the consistency of objects and background without changing their texture and attributes. Current inference-time methods often rely on DDIM inversion, which inherently compromises efficiency and the achievable consistency of edited images. Recent methods also utilize energy guidance which iteratively updates the predicted noise and can drive the latents away from the original image, resulting in distortions. In this paper, we propose PixelMan, an inversion-free and training-free method for achieving consistent object editing via Pixel Manipulation and generation, where we directly create a duplicate copy of the source object at target location in the pixel space, and introduce an efficient sampling approach to iteratively harmonize the manipulated object into the target location and inpaint its original location, while ensuring image consistency by anchoring the edited image to be generated to the pixel-manipulated image as well as by introducing various consistency-preserving optimization techniques during inference. Experimental evaluations based on benchmark datasets as well as extensive visual comparisons show that in as few as 16 inference steps, PixelMan outperforms a range of state-of-the-art training-based and training-free methods (usually requiring 50 steps) on multiple consistent object editing tasks.
- Abstract(参考訳): 近年, オブジェクトの位置, サイズ, 組成などを変更することを目的として, テクスチャや属性を変更することなく, オブジェクトと背景の一貫性を保ちながら, オブジェクトの位置, サイズ, 組成などを変更することを目的とした, オブジェクト編集のための拡散モデル (DM) の可能性について検討している。
現在の推測時間法はDDIMのインバージョンに依存しており、これは本質的に効率と編集可能な画像の一貫性を損なう。
最近の手法では、予測されたノイズを反復的に更新し、潜伏者を元の画像から遠ざけるエネルギー誘導も利用している。
本稿では,画素空間内のターゲット位置におけるソースオブジェクトの複製を直接生成する,画素操作による一貫したオブジェクト編集を実現するための,逆フリーでトレーニング不要なPixelManを提案する。
ベンチマークデータセットと広範囲なビジュアル比較に基づく実験的評価によると、PixelManは16ステップの推論ステップで、複数の一貫したオブジェクト編集タスクにおいて、最先端のトレーニングベースおよびトレーニング不要(通常50ステップ)メソッド(通常、50ステップ)を上回ります。
関連論文リスト
- AdaptiveDrag: Semantic-Driven Dragging on Diffusion-Based Image Editing [14.543341303789445]
マスクレスのポイントベース画像編集手法であるAdaptiveDragを提案する。
入力画像とドラッグプロセスとの包括的接続を確保するため,セマンティック駆動型最適化を開発した。
提案手法は,これらの効果的な設計に基づいて,単一入力画像とハンド・ターゲット・ポイント・ペアのみを用いて,優れた生成結果を提供する。
論文 参考訳(メタデータ) (2024-10-16T15:59:02Z) - Auto DragGAN: Editing the Generative Image Manifold in an Autoregressive Manner [28.939227214483953]
本稿では,レグレッションに基づくネットワークを用いて,画像のドラッグング過程におけるStyleGAN潜伏符号の変動パターンを学習する。
提案手法は,画素レベルの粒度でのSOTA推論速度と画像編集性能を実現する。
論文 参考訳(メタデータ) (2024-07-26T10:45:57Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - PFB-Diff: Progressive Feature Blending Diffusion for Text-driven Image
Editing [8.19063619210761]
PFB-Diffは拡散に基づく画像編集のためのプログレッシブ・フィーチャーブレンディング法である。
本手法は, 画像の忠実度, 編集精度, 効率, 忠実度において優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-28T11:10:20Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。
画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。
各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-03-28T12:27:34Z) - IDA: Improved Data Augmentation Applied to Salient Object Detection [0.0]
本稿では,SOD(Salient Object Detection)に着目した改良型データ拡張(IDA)技術を提案する。
提案手法は,画像のインペイント,アフィン変換,およびラベル付きデータから抽出したサリアントオブジェクトと,異なる生成背景画像の線形結合を組み合わせたものである。
本手法は,SOD分野のいくつかの有名なデータセット上で,最先端ニューラルネットワークをトレーニングする際のセグメンテーション品質を向上することを示す。
論文 参考訳(メタデータ) (2020-09-18T14:03:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。