論文の概要: Fine-grained Image Editing by Pixel-wise Guidance Using Diffusion Models
- arxiv url: http://arxiv.org/abs/2212.02024v2
- Date: Thu, 8 Dec 2022 04:01:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 14:02:56.187522
- Title: Fine-grained Image Editing by Pixel-wise Guidance Using Diffusion Models
- Title(参考訳): 拡散モデルを用いた画素誘導による細粒画像編集
- Authors: Naoki Matsunaga, Masato Ishii, Akio Hayakawa, Kenji Suzuki, Takuya
Narihira
- Abstract要約: 画素単位のガイダンスに基づく新しい画像編集手法を提案する。
提案手法は,編集領域の外部のコンテンツを保存しながら,編集領域に合理的なコンテンツを作成することができる。
実験により,提案手法の利点を定量的かつ定性的に検証した。
- 参考スコア(独自算出の注目度): 4.855820180160146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models, particularly GANs, have been utilized for image editing.
Although GAN-based methods perform well on generating reasonable contents
aligned with the user's intentions, they struggle to strictly preserve the
contents outside the editing region. To address this issue, we use diffusion
models instead of GANs and propose a novel image-editing method, based on
pixel-wise guidance. Specifically, we first train pixel-classifiers with few
annotated data and then estimate the semantic segmentation map of a target
image. Users then manipulate the map to instruct how the image is to be edited.
The diffusion model generates an edited image via guidance by pixel-wise
classifiers, such that the resultant image aligns with the manipulated map. As
the guidance is conducted pixel-wise, the proposed method can create reasonable
contents in the editing region while preserving the contents outside this
region. The experimental results validate the advantages of the proposed method
both quantitatively and qualitatively.
- Abstract(参考訳): 生成モデル、特にGANは画像編集に利用されている。
GANベースの手法は、ユーザの意図に沿った合理的なコンテンツを生成するのにうまく機能するが、編集領域外のコンテンツを厳密に保存することは困難である。
この問題に対処するために,ganの代わりに拡散モデルを用い,画素案内に基づく新しい画像編集法を提案する。
具体的には,まずアノテートデータが少ない画素分類器を訓練し,対象画像のセマンティックセグメンテーションマップを推定する。
ユーザは地図を操作して、画像の編集方法を指示する。
拡散モデルは、画素ワイド分類器による誘導により編集画像を生成し、結果として得られる画像は、操作された地図と整合する。
提案手法は,画素単位での指導を行うことで,編集領域内に合理的なコンテンツを作成でき,かつ,その領域外のコンテンツを保存することができる。
実験により,提案手法の利点を定量的かつ定性的に検証した。
関連論文リスト
- AdaptiveDrag: Semantic-Driven Dragging on Diffusion-Based Image Editing [14.543341303789445]
マスクレスのポイントベース画像編集手法であるAdaptiveDragを提案する。
入力画像とドラッグプロセスとの包括的接続を確保するため,セマンティック駆動型最適化を開発した。
提案手法は,これらの効果的な設計に基づいて,単一入力画像とハンド・ターゲット・ポイント・ペアのみを用いて,優れた生成結果を提供する。
論文 参考訳(メタデータ) (2024-10-16T15:59:02Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - InstructRL4Pix: Training Diffusion for Image Editing by Reinforcement Learning [31.799923647356458]
本稿では,対象物体の注意図で導かれる画像を生成するために拡散モデルを訓練するための強化学習ガイド画像編集法(InstructRL4Pix)を提案する。
実験結果から、InstructRL4Pixは従来のデータセットの限界を突破し、教師なし学習を用いて、編集目標を最適化し、自然な人間のコマンドに基づいて正確な画像編集を実現することがわかった。
論文 参考訳(メタデータ) (2024-06-14T12:31:48Z) - Zero-shot Image Editing with Reference Imitation [50.75310094611476]
我々は、ユーザーがより便利に創造性を発揮できるように、模倣編集と呼ばれる新しい形態の編集を提示する。
ビデオクリップから2つのフレームをランダムに選択し、あるフレームのいくつかの領域をマスクし、他のフレームからの情報を用いてマスクされた領域を復元する、MimicBrushと呼ばれる生成学習フレームワークを提案する。
各種試験事例における本手法の有効性を実験的に示すとともに,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-11T17:59:51Z) - InstructBrush: Learning Attention-based Instruction Optimization for Image Editing [54.07526261513434]
InstructBrushは命令ベースの画像編集方法の逆変換手法である。
画像ペアから編集命令として編集効果を抽出し、さらに画像編集に適用する。
提案手法は,編集性能に優れ,目的の編集効果とセマンティックに一致している。
論文 参考訳(メタデータ) (2024-03-27T15:03:38Z) - Eta Inversion: Designing an Optimal Eta Function for Diffusion-based Real Image Editing [2.5602836891933074]
実際の画像を編集するための一般的な戦略は、拡散過程を反転させて元の画像のノイズ表現を得る。
拡散反転の現在の方法は、しばしば特定のテキストプロンプトに忠実で、ソースイメージによく似ている編集を生成するのに苦労する。
本稿では, DDIMサンプリング式における$eta$の役割を理論的に解析し, 編集性の向上を図った, 実画像編集のための新規かつ適応的な拡散インバージョン手法を提案する。
論文 参考訳(メタデータ) (2024-03-14T15:07:36Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion
Models [6.34777393532937]
本稿では,テキスト駆動画像編集のための高精度かつ高速な変換手法であるPrompt Tuning Inversionを提案する。
提案手法は再構築段階と編集段階から構成される。
ImageNetの実験は、最先端のベースラインと比較して、我々の手法の編集性能が優れていることを実証している。
論文 参考訳(メタデータ) (2023-05-08T03:34:33Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。