論文の概要: Iterative Multi-granular Image Editing using Diffusion Models
- arxiv url: http://arxiv.org/abs/2309.00613v2
- Date: Sat, 28 Oct 2023 11:16:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 20:27:26.827059
- Title: Iterative Multi-granular Image Editing using Diffusion Models
- Title(参考訳): 拡散モデルを用いた反復多粒画像編集
- Authors: K J Joseph, Prateksha Udhayanan, Tripti Shukla, Aishwarya Agarwal,
Srikrishna Karanam, Koustava Goswami, Balaji Vasan Srinivasan
- Abstract要約: EMILIE:イテレーティブ・マルチグラニュラー画像エディタを提案する。
新たに提案した設定を評価するためのベンチマークデータセットを新たに導入する。
- 参考スコア(独自算出の注目度): 20.21694969555533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in text-guided image synthesis has dramatically changed how
creative professionals generate artistic and aesthetically pleasing visual
assets. To fully support such creative endeavors, the process should possess
the ability to: 1) iteratively edit the generations and 2) control the spatial
reach of desired changes (global, local or anything in between). We formalize
this pragmatic problem setting as Iterative Multi-granular Editing. While there
has been substantial progress with diffusion-based models for image synthesis
and editing, they are all one shot (i.e., no iterative editing capabilities)
and do not naturally yield multi-granular control (i.e., covering the full
spectrum of local-to-global edits). To overcome these drawbacks, we propose
EMILIE: Iterative Multi-granular Image Editor. EMILIE introduces a novel latent
iteration strategy, which re-purposes a pre-trained diffusion model to
facilitate iterative editing. This is complemented by a gradient control
operation for multi-granular control. We introduce a new benchmark dataset to
evaluate our newly proposed setting. We conduct exhaustive quantitatively and
qualitatively evaluation against recent state-of-the-art approaches adapted to
our task, to being out the mettle of EMILIE. We hope our work would attract
attention to this newly identified, pragmatic problem setting.
- Abstract(参考訳): テキスト誘導画像合成の最近の進歩は、創造的なプロフェッショナルが芸術的かつ美的な視覚的資産を生み出す方法を大きく変えた。
そのような創造的な取り組みを完全に支援するためには、プロセスは以下の能力を持つべきである。
1)世代を反復的に編集し
2)所望の変化(グローバル,ローカル,あるいはその中間)の空間的到達度を制御する。
我々は,この実用的問題設定を反復的多面的編集として定式化する。
画像合成と編集のための拡散ベースのモデルにはかなりの進歩があったが、それらはすべて1つのショット(反復編集機能がない)であり、自然にマルチグラニュラー制御(すなわち、ローカルからグローバルへの編集のスペクトル全体をカバーする)を与えない。
これらの欠点を克服するために, EMILIE: Iterative Multi-granular Image Editorを提案する。
emilie氏は新しい潜在反復戦略を導入し、反復的な編集を容易にするために事前訓練された拡散モデルを再利用した。
これはマルチグラニュラー制御のための勾配制御操作によって補完される。
新たに提案した設定を評価するためのベンチマークデータセットを提案する。
我々は、EMILIEの課題に適応した最近の最先端アプローチに対して、徹底的かつ質的に定量的に評価を行う。
この新しく特定された実用的な問題設定に私たちの仕事が注目されることを願っています。
関連論文リスト
- Eta Inversion: Designing an Optimal Eta Function for Diffusion-based Real Image Editing [2.5602836891933074]
実際の画像を編集するための一般的な戦略は、拡散過程を反転させて元の画像のノイズ表現を得る。
本稿では, DDIMサンプリング式における$eta$の役割を理論的に解析し, 編集性の向上を図った, 実画像編集のための新規かつ適応的な拡散インバージョン手法を提案する。
論文 参考訳(メタデータ) (2024-03-14T15:07:36Z) - Diffusion Model-Based Image Editing: A Survey [46.244266782108234]
様々な画像生成や編集作業のための強力なツールとして,拡散モデルが登場している。
本稿では,画像編集のための拡散モデルを用いた既存手法の概要について述べる。
テキスト誘導画像編集アルゴリズムの性能を更に評価するために,系統的なベンチマークであるEditEvalを提案する。
論文 参考訳(メタデータ) (2024-02-27T14:07:09Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z) - Differential Diffusion: Giving Each Pixel Its Strength [10.36919027402249]
本稿では,画素単位や画像領域ごとの変化量をカスタマイズできる新しいフレームワークを提案する。
私たちのフレームワークは既存の拡散モデルに統合することができ、この機能で拡張できます。
提案手法を現在のオープン・オブ・ザ・アーティファクト・モデルで実証し,定量的および定性的な比較によって検証する。
論文 参考訳(メタデータ) (2023-06-01T17:47:06Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - Paint by Example: Exemplar-based Image Editing with Diffusion Models [35.84464684227222]
本稿では,より精密な制御のための画像編集について検討する。
我々は、この目標を達成するために、自己指導型トレーニングを活用して、ソースイメージとインスペクタをアンタングルし、再編成する。
提案手法は印象的な性能を実現し,高忠実度で画像の編集を制御できることを実証する。
論文 参考訳(メタデータ) (2022-11-23T18:59:52Z) - End-to-End Visual Editing with a Generatively Pre-Trained Artist [78.5922562526874]
対象画像編集の問題として、ソース画像内の領域と、所望の変更を指定したドライバ画像とをブレンドすることを考える。
対象領域のオフザシェルフ画像を拡大することにより編集をシミュレートする自己教師型アプローチを提案する。
我々は、モデルアーキテクチャに他の変更を加えることなく、拡張プロセスの直感的な制御によって異なるブレンディング効果が学習できることを示します。
論文 参考訳(メタデータ) (2022-05-03T17:59:30Z) - Learning by Planning: Language-Guided Global Image Editing [53.72807421111136]
あいまいな編集言語要求を一連の編集操作にマッピングするテキスト・ツー・オペレーティング・モデルを開発した。
タスクの唯一の監督はターゲットイメージであり、シーケンシャルな決定の安定したトレーニングには不十分である。
本研究では,対象画像から可能な編集シーケンスを疑似基底真理として生成する,新たな操作計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-24T16:30:03Z) - Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space
Navigation [136.53288628437355]
コントロール可能なセマンティックイメージ編集により、ユーザーはクリック数回で画像属性全体を変更できる。
現在のアプローチでは、絡み合った属性編集、グローバルなイメージアイデンティティの変更、フォトリアリズムの低下に悩まされることが多い。
本稿では,主に定性評価に焦点を当てた先行研究とは異なり,制御可能な編集性能を測定するための定量的評価手法を提案する。
論文 参考訳(メタデータ) (2021-02-01T21:38:36Z) - Look here! A parametric learning based approach to redirect visual
attention [49.609412873346386]
画像領域を微妙な画像編集によってより注目度の高いものにするための自動手法を提案する。
我々のモデルは、前景および背景画像領域に適用可能な、異なるグローバルパラメトリック変換セットを予測する。
編集により、任意の画像サイズでインタラクティブなレートでの推論が可能になり、簡単に動画に一般化できる。
論文 参考訳(メタデータ) (2020-08-12T16:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。