論文の概要: SpecRef: A Fast Training-free Baseline of Specific Reference-Condition
Real Image Editing
- arxiv url: http://arxiv.org/abs/2401.03433v1
- Date: Sun, 7 Jan 2024 09:23:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 18:47:44.910858
- Title: SpecRef: A Fast Training-free Baseline of Specific Reference-Condition
Real Image Editing
- Title(参考訳): specref: 特定の参照条件の実画像編集の高速トレーニングフリーベースライン
- Authors: Songyan Chen, Jiancheng Huang
- Abstract要約: 本研究では,特定参照条件実画像編集というタスクを提案する。
オブジェクトを特定のものに置き換えるなど、結果をさらにコントロールするための参照イメージを提供することができる。
具体的には、参照画像の特徴を取り入れた特定参照注意制御を設計し、編集領域と非編集領域の干渉を防止するマスク機構を採用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-conditional image editing based on large diffusion generative model has
attracted the attention of both the industry and the research community. Most
existing methods are non-reference editing, with the user only able to provide
a source image and text prompt. However, it restricts user's control over the
characteristics of editing outcome. To increase user freedom, we propose a new
task called Specific Reference Condition Real Image Editing, which allows user
to provide a reference image to further control the outcome, such as replacing
an object with a particular one. To accomplish this, we propose a fast baseline
method named SpecRef. Specifically, we design a Specific Reference Attention
Controller to incorporate features from the reference image, and adopt a mask
mechanism to prevent interference between editing and non-editing regions. We
evaluate SpecRef on typical editing tasks and show that it can achieve
satisfactory performance. The source code is available on
https://github.com/jingjiqinggong/specp2p.
- Abstract(参考訳): 大規模拡散生成モデルに基づくテキスト条件画像編集は,産業と研究コミュニティの両方の注目を集めている。
既存のメソッドのほとんどは参照なしの編集であり、ユーザーはソースイメージとテキストプロンプトしか提供できない。
しかし、編集結果の特徴に対するユーザの制御は制限される。
ユーザの自由度を高めるために,特定の参照条件を実画像編集と呼ぶ新しいタスクを提案する。
そこで我々はSpecRefという高速なベースライン手法を提案する。
具体的には、参照画像の特徴を取り入れた特定参照注意制御を設計し、編集領域と非編集領域の干渉を防止するマスク機構を採用する。
典型的な編集作業においてSpecRefを評価し,良好な性能が得られることを示す。
ソースコードはhttps://github.com/jingjiqinggong/specp2pで入手できる。
関連論文リスト
- FreeEdit: Mask-free Reference-based Image Editing with Multi-modal Instruction [31.95664918050255]
FreeEditは参照ベースの画像編集を実現するための新しいアプローチである。
ユーザフレンドリーな言語命令に基づいて参照画像から視覚概念を正確に再現することができる。
論文 参考訳(メタデータ) (2024-09-26T17:18:39Z) - Zero-shot Image Editing with Reference Imitation [50.75310094611476]
我々は、ユーザーがより便利に創造性を発揮できるように、模倣編集と呼ばれる新しい形態の編集を提示する。
ビデオクリップから2つのフレームをランダムに選択し、あるフレームのいくつかの領域をマスクし、他のフレームからの情報を用いてマスクされた領域を復元する、MimicBrushと呼ばれる生成学習フレームワークを提案する。
各種試験事例における本手法の有効性を実験的に示すとともに,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-11T17:59:51Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - Custom-Edit: Text-Guided Image Editing with Customized Diffusion Models [26.92450293675906]
テキスト間拡散モデルでは、ユーザが提供するテキストプロンプトに基づいて、多種多様な高忠実な画像を生成することができる。
カスタム編集を提案し、(i)いくつかの参照画像で拡散モデルをカスタマイズし、(ii)テキスト誘導編集を行う。
論文 参考訳(メタデータ) (2023-05-25T06:46:28Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - PAIR-Diffusion: A Comprehensive Multimodal Object-Level Image Editor [135.17302411419834]
PAIR Diffusionは、画像内の各オブジェクトの構造と外観を制御する拡散モデルを可能にする汎用フレームワークである。
画像中の各オブジェクトのプロパティを制御できることが、包括的な編集機能に繋がることを示す。
我々のフレームワークは、参照画像ベースの外観編集、自由形形状編集、オブジェクトの追加、バリエーションなど、実際の画像に対する様々なオブジェクトレベルの編集操作を可能にする。
論文 参考訳(メタデータ) (2023-03-30T17:13:56Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。