論文の概要: Iterative Multi-granular Image Editing using Diffusion Models
- arxiv url: http://arxiv.org/abs/2309.00613v1
- Date: Fri, 1 Sep 2023 17:59:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 12:41:07.154750
- Title: Iterative Multi-granular Image Editing using Diffusion Models
- Title(参考訳): 拡散モデルを用いた反復多粒画像編集
- Authors: K J Joseph, Prateksha Udhayanan, Tripti Shukla, Aishwarya Agarwal,
Srikrishna Karanam, Koustava Goswami, Balaji Vasan Srinivasan
- Abstract要約: EMILIE:イテレーティブ・マルチグラニュラー画像エディタを提案する。
新たに提案した設定を評価するためのベンチマークデータセットを新たに導入する。
- 参考スコア(独自算出の注目度): 20.21694969555533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in text-guided image synthesis has dramatically changed how
creative professionals generate artistic and aesthetically pleasing visual
assets. To fully support such creative endeavors, the process should possess
the ability to: 1) iteratively edit the generations and 2) control the spatial
reach of desired changes (global, local or anything in between). We formalize
this pragmatic problem setting as Iterative Multi-granular Editing. While there
has been substantial progress with diffusion-based models for image synthesis
and editing, they are all one shot (i.e., no iterative editing capabilities)
and do not naturally yield multi-granular control (i.e., covering the full
spectrum of local-to-global edits). To overcome these drawbacks, we propose
EMILIE: Iterative Multi-granular Image Editor. EMILIE introduces a novel latent
iteration strategy, which re-purposes a pre-trained diffusion model to
facilitate iterative editing. This is complemented by a gradient control
operation for multi-granular control. We introduce a new benchmark dataset to
evaluate our newly proposed setting. We conduct exhaustive quantitatively and
qualitatively evaluation against recent state-of-the-art approaches adapted to
our task, to being out the mettle of EMILIE. We hope our work would attract
attention to this newly identified, pragmatic problem setting.
- Abstract(参考訳): テキスト誘導画像合成の最近の進歩は、創造的なプロフェッショナルが芸術的かつ美的な視覚的資産を生み出す方法を大きく変えた。
そのような創造的な取り組みを完全に支援するためには、プロセスは以下の能力を持つべきである。
1)世代を反復的に編集し
2)所望の変化(グローバル,ローカル,あるいはその中間)の空間的到達度を制御する。
我々は,この実用的問題設定を反復的多面的編集として定式化する。
画像合成と編集のための拡散ベースのモデルにはかなりの進歩があったが、それらはすべて1つのショット(反復編集機能がない)であり、自然にマルチグラニュラー制御(すなわち、ローカルからグローバルへの編集のスペクトル全体をカバーする)を与えない。
これらの欠点を克服するために, EMILIE: Iterative Multi-granular Image Editorを提案する。
emilie氏は新しい潜在反復戦略を導入し、反復的な編集を容易にするために事前訓練された拡散モデルを再利用した。
これはマルチグラニュラー制御のための勾配制御操作によって補完される。
新たに提案した設定を評価するためのベンチマークデータセットを提案する。
我々は、EMILIEの課題に適応した最近の最先端アプローチに対して、徹底的かつ質的に定量的に評価を行う。
この新しく特定された実用的な問題設定に私たちの仕事が注目されることを願っています。
関連論文リスト
- Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - SeedEdit: Align Image Re-Generation to Image Editing [23.461716630027436]
本稿では,任意のテキストプロンプトで任意の画像を修正可能な拡散モデルであるSeedEditを紹介する。
このような2つの方向の間に多様なペアを生成する弱いジェネレータ(text-to-image model)から始める。
SeedEditは、以前の画像編集方法よりも多種多様な安定した編集機能を実現することができる。
論文 参考訳(メタデータ) (2024-11-11T03:06:26Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - Zero-shot Image Editing with Reference Imitation [50.75310094611476]
我々は、ユーザーがより便利に創造性を発揮できるように、模倣編集と呼ばれる新しい形態の編集を提示する。
ビデオクリップから2つのフレームをランダムに選択し、あるフレームのいくつかの領域をマスクし、他のフレームからの情報を用いてマスクされた領域を復元する、MimicBrushと呼ばれる生成学習フレームワークを提案する。
各種試験事例における本手法の有効性を実験的に示すとともに,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-11T17:59:51Z) - Eta Inversion: Designing an Optimal Eta Function for Diffusion-based Real Image Editing [2.5602836891933074]
実際の画像を編集するための一般的な戦略は、拡散過程を反転させて元の画像のノイズ表現を得る。
拡散反転の現在の方法は、しばしば特定のテキストプロンプトに忠実で、ソースイメージによく似ている編集を生成するのに苦労する。
本稿では, DDIMサンプリング式における$eta$の役割を理論的に解析し, 編集性の向上を図った, 実画像編集のための新規かつ適応的な拡散インバージョン手法を提案する。
論文 参考訳(メタデータ) (2024-03-14T15:07:36Z) - Diffusion Model-Based Image Editing: A Survey [46.244266782108234]
様々な画像生成や編集作業のための強力なツールとして,拡散モデルが登場している。
本稿では,画像編集のための拡散モデルを用いた既存手法の概要について述べる。
テキスト誘導画像編集アルゴリズムの性能を更に評価するために,系統的なベンチマークであるEditEvalを提案する。
論文 参考訳(メタデータ) (2024-02-27T14:07:09Z) - Differential Diffusion: Giving Each Pixel Its Strength [10.36919027402249]
本稿では,画素単位や画像領域ごとの変化量をカスタマイズできる新しいフレームワークを提案する。
私たちのフレームワークは既存の拡散モデルに統合することができ、この機能で拡張できます。
提案手法を現在のオープン・オブ・ザ・アーティファクト・モデルで実証し,定量的および定性的な比較によって検証する。
論文 参考訳(メタデータ) (2023-06-01T17:47:06Z) - End-to-End Visual Editing with a Generatively Pre-Trained Artist [78.5922562526874]
対象画像編集の問題として、ソース画像内の領域と、所望の変更を指定したドライバ画像とをブレンドすることを考える。
対象領域のオフザシェルフ画像を拡大することにより編集をシミュレートする自己教師型アプローチを提案する。
我々は、モデルアーキテクチャに他の変更を加えることなく、拡張プロセスの直感的な制御によって異なるブレンディング効果が学習できることを示します。
論文 参考訳(メタデータ) (2022-05-03T17:59:30Z) - Learning by Planning: Language-Guided Global Image Editing [53.72807421111136]
あいまいな編集言語要求を一連の編集操作にマッピングするテキスト・ツー・オペレーティング・モデルを開発した。
タスクの唯一の監督はターゲットイメージであり、シーケンシャルな決定の安定したトレーニングには不十分である。
本研究では,対象画像から可能な編集シーケンスを疑似基底真理として生成する,新たな操作計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-24T16:30:03Z) - Look here! A parametric learning based approach to redirect visual
attention [49.609412873346386]
画像領域を微妙な画像編集によってより注目度の高いものにするための自動手法を提案する。
我々のモデルは、前景および背景画像領域に適用可能な、異なるグローバルパラメトリック変換セットを予測する。
編集により、任意の画像サイズでインタラクティブなレートでの推論が可能になり、簡単に動画に一般化できる。
論文 参考訳(メタデータ) (2020-08-12T16:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。