論文の概要: PIXELS: Progressive Image Xemplar-based Editing with Latent Surgery
- arxiv url: http://arxiv.org/abs/2501.09826v1
- Date: Thu, 16 Jan 2025 20:26:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:59:46.068985
- Title: PIXELS: Progressive Image Xemplar-based Editing with Latent Surgery
- Title(参考訳): PIXELS:進行性画像Xemplar-based Editing with Latent surgery
- Authors: Shristi Das Biswas, Matthew Shreve, Xuelu Li, Prateek Singhal, Kaushik Roy,
- Abstract要約: PIXELSと呼ばれる,市販拡散モデルを用いたプログレッシブな例駆動編集のための新しいフレームワークを提案する。
PIXELSは編集のきめ細かい制御を提供し、ピクセルや領域レベルでの調整を可能にする。
我々は,PIXELSが高品質な編集を効率よく行うことを実証し,定量化と人的評価に顕著な改善をもたらすことを示した。
- 参考スコア(独自算出の注目度): 10.594261300488546
- License:
- Abstract: Recent advancements in language-guided diffusion models for image editing are often bottle-necked by cumbersome prompt engineering to precisely articulate desired changes. An intuitive alternative calls on guidance from in-the-wild image exemplars to help users bring their imagined edits to life. Contemporary exemplar-based editing methods shy away from leveraging the rich latent space learnt by pre-existing large text-to-image (TTI) models and fall back on training with curated objective functions to achieve the task. Though somewhat effective, this demands significant computational resources and lacks compatibility with diverse base models and arbitrary exemplar count. On further investigation, we also find that these techniques restrict user control to only applying uniform global changes over the entire edited region. In this paper, we introduce a novel framework for progressive exemplar-driven editing with off-the-shelf diffusion models, dubbed PIXELS, to enable customization by providing granular control over edits, allowing adjustments at the pixel or region level. Our method operates solely during inference to facilitate imitative editing, enabling users to draw inspiration from a dynamic number of reference images, or multimodal prompts, and progressively incorporate all the desired changes without retraining or fine-tuning existing TTI models. This capability of fine-grained control opens up a range of new possibilities, including selective modification of individual objects and specifying gradual spatial changes. We demonstrate that PIXELS delivers high-quality edits efficiently, leading to a notable improvement in quantitative metrics as well as human evaluation. By making high-quality image editing more accessible, PIXELS has the potential to enable professional-grade edits to a wider audience with the ease of using any open-source image generation model.
- Abstract(参考訳): 画像編集のための言語誘導拡散モデルの最近の進歩は、望まれる変化を正確に表現するために、面倒なプロンプトエンジニアリングによってボトルネッキングされることが多い。
直感的な代替手段は、ユーザーが想像した編集を生き返らせるのを助けるために、Wild画像の見習いからガイダンスを求めるものだ。
現代におけるテキスト・トゥ・イメージ(TTI)モデルが既存の大きなテキスト・トゥ・イメージ(TTI)モデルに先行して学習したリッチな潜伏空間を活用することを避け、そのタスクを達成するために、学習対象関数を用いたトレーニングに失敗する。
幾分効果はあるが、これはかなりの計算資源を必要とし、多様なベースモデルと任意の指数数との互換性を欠いている。
さらに,これらの手法は,編集領域全体に対するグローバルな一様変化のみの適用に制限されていることも確認した。
本稿では,PIXELSと呼ばれる市販の拡散モデルを用いたプログレッシブ・エスペクティブ・エスペクティブ・編集のための新しいフレームワークを紹介し,編集の粒度制御を提供することでカスタマイズを可能にし,画素や領域レベルでの調整を可能にする。
提案手法は,参照画像のダイナミックな数やマルチモーダルなプロンプトからインスピレーションを引き出し,既存のTTIモデルを再学習したり微調整したりすることなく,必要なすべての変更を段階的に組み込むことができる。
この微粒化制御の能力は、個々のオブジェクトの選択的な修正や、段階的な空間変化の特定など、様々な新しい可能性を開く。
我々は、PIXELSが高品質な編集を効率よく行うことを実証し、定量化と人的評価に顕著な改善をもたらすことを示した。
高品質な画像編集をよりアクセスしやすくすることで、PIXELSはオープンソース画像生成モデルの使用を容易にして、プロ級の編集をより広い層に提供できる可能性がある。
関連論文リスト
- Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - DreamSteerer: Enhancing Source Image Conditioned Editability using Personalized Diffusion Models [7.418186319496487]
近年のテキスト・ツー・イメージのパーソナライズ手法は,ユーザ特定概念の拡散モデルを教える上で大きな可能性を秘めている。
有望な拡張は、パーソナライズされた概念を使って画像を編集するパーソナライズされた編集である。
本稿では,既存のT2Iパーソナライズ手法を拡張するプラグインであるDreamSteerを提案する。
論文 参考訳(メタデータ) (2024-10-15T02:50:54Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - Differential Diffusion: Giving Each Pixel Its Strength [10.36919027402249]
本稿では,画素単位や画像領域ごとの変化量をカスタマイズできる新しいフレームワークを提案する。
私たちのフレームワークは既存の拡散モデルに統合することができ、この機能で拡張できます。
提案手法を現在のオープン・オブ・ザ・アーティファクト・モデルで実証し,定量的および定性的な比較によって検証する。
論文 参考訳(メタデータ) (2023-06-01T17:47:06Z) - End-to-End Visual Editing with a Generatively Pre-Trained Artist [78.5922562526874]
対象画像編集の問題として、ソース画像内の領域と、所望の変更を指定したドライバ画像とをブレンドすることを考える。
対象領域のオフザシェルフ画像を拡大することにより編集をシミュレートする自己教師型アプローチを提案する。
我々は、モデルアーキテクチャに他の変更を加えることなく、拡張プロセスの直感的な制御によって異なるブレンディング効果が学習できることを示します。
論文 参考訳(メタデータ) (2022-05-03T17:59:30Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z) - Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space
Navigation [136.53288628437355]
コントロール可能なセマンティックイメージ編集により、ユーザーはクリック数回で画像属性全体を変更できる。
現在のアプローチでは、絡み合った属性編集、グローバルなイメージアイデンティティの変更、フォトリアリズムの低下に悩まされることが多い。
本稿では,主に定性評価に焦点を当てた先行研究とは異なり,制御可能な編集性能を測定するための定量的評価手法を提案する。
論文 参考訳(メタデータ) (2021-02-01T21:38:36Z) - Look here! A parametric learning based approach to redirect visual
attention [49.609412873346386]
画像領域を微妙な画像編集によってより注目度の高いものにするための自動手法を提案する。
我々のモデルは、前景および背景画像領域に適用可能な、異なるグローバルパラメトリック変換セットを予測する。
編集により、任意の画像サイズでインタラクティブなレートでの推論が可能になり、簡単に動画に一般化できる。
論文 参考訳(メタデータ) (2020-08-12T16:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。