Fugu-MT 論文翻訳(概要): Iterative Multi-granular Image Editing using Diffusion Models

論文の概要: Iterative Multi-granular Image Editing using Diffusion Models

arxiv url: http://arxiv.org/abs/2309.00613v2
Date: Sat, 28 Oct 2023 11:16:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 20:27:26.827059
Title: Iterative Multi-granular Image Editing using Diffusion Models
Title（参考訳）: 拡散モデルを用いた反復多粒画像編集
Authors: K J Joseph, Prateksha Udhayanan, Tripti Shukla, Aishwarya Agarwal, Srikrishna Karanam, Koustava Goswami, Balaji Vasan Srinivasan
Abstract要約: EMILIE:イテレーティブ・マルチグラニュラー画像エディタを提案する。新たに提案した設定を評価するためのベンチマークデータセットを新たに導入する。
参考スコア（独自算出の注目度）: 20.21694969555533
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in text-guided image synthesis has dramatically changed how creative professionals generate artistic and aesthetically pleasing visual assets. To fully support such creative endeavors, the process should possess the ability to: 1) iteratively edit the generations and 2) control the spatial reach of desired changes (global, local or anything in between). We formalize this pragmatic problem setting as Iterative Multi-granular Editing. While there has been substantial progress with diffusion-based models for image synthesis and editing, they are all one shot (i.e., no iterative editing capabilities) and do not naturally yield multi-granular control (i.e., covering the full spectrum of local-to-global edits). To overcome these drawbacks, we propose EMILIE: Iterative Multi-granular Image Editor. EMILIE introduces a novel latent iteration strategy, which re-purposes a pre-trained diffusion model to facilitate iterative editing. This is complemented by a gradient control operation for multi-granular control. We introduce a new benchmark dataset to evaluate our newly proposed setting. We conduct exhaustive quantitatively and qualitatively evaluation against recent state-of-the-art approaches adapted to our task, to being out the mettle of EMILIE. We hope our work would attract attention to this newly identified, pragmatic problem setting.
Abstract（参考訳）: テキスト誘導画像合成の最近の進歩は、創造的なプロフェッショナルが芸術的かつ美的な視覚的資産を生み出す方法を大きく変えた。そのような創造的な取り組みを完全に支援するためには、プロセスは以下の能力を持つべきである。 1)世代を反復的に編集し 2)所望の変化(グローバル,ローカル,あるいはその中間)の空間的到達度を制御する。我々は,この実用的問題設定を反復的多面的編集として定式化する。画像合成と編集のための拡散ベースのモデルにはかなりの進歩があったが、それらはすべて1つのショット(反復編集機能がない)であり、自然にマルチグラニュラー制御(すなわち、ローカルからグローバルへの編集のスペクトル全体をカバーする)を与えない。これらの欠点を克服するために, EMILIE: Iterative Multi-granular Image Editorを提案する。 emilie氏は新しい潜在反復戦略を導入し、反復的な編集を容易にするために事前訓練された拡散モデルを再利用した。これはマルチグラニュラー制御のための勾配制御操作によって補完される。新たに提案した設定を評価するためのベンチマークデータセットを提案する。我々は、EMILIEの課題に適応した最近の最先端アプローチに対して、徹底的かつ質的に定量的に評価を行う。この新しく特定された実用的な問題設定に私たちの仕事が注目されることを願っています。

関連論文リスト

Inverse-and-Edit: Effective and Fast Image Editing by Cycle Consistency Models [1.9389881806157316]
本研究では,一貫性モデルを用いた画像のインバージョンを改善する新しいフレームワークを提案する。本手法では,再設計精度を大幅に向上するサイクル一貫性最適化手法を提案する。さまざまな画像編集タスクやデータセットに対して,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-06-23T20:34:43Z)
REED-VAE: RE-Encode Decode Training for Iterative Image Editing with Diffusion Models [21.889238871432553]
遅延拡散モデルでは印象的な画像編集結果が得られるが,同じ画像の反復的編集への応用は厳しく制限されている。可変オートエンコーダ(VAE)のためのRE-Encode Decode(REED)トレーニングスキームを提案する。本稿では、REED-VAEが画像の全体的な編集可能性を高め、良好な編集操作を行う可能性を高めることを示す。
論文参考訳（メタデータ） (2025-04-26T18:26:54Z)
PIXELS: Progressive Image Xemplar-based Editing with Latent Surgery [10.594261300488546]
PIXELSと呼ばれる,市販拡散モデルを用いたプログレッシブな例駆動編集のための新しいフレームワークを提案する。 PIXELSは編集のきめ細かい制御を提供し、ピクセルや領域レベルでの調整を可能にする。我々は,PIXELSが高品質な編集を効率よく行うことを実証し,定量化と人的評価に顕著な改善をもたらすことを示した。
論文参考訳（メタデータ） (2025-01-16T20:26:30Z)
EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文参考訳（メタデータ） (2025-01-08T18:59:35Z)
Uniform Attention Maps: Boosting Image Fidelity in Reconstruction and Editing [66.48853049746123]
構造的視点から再構築を解析し、従来の横断的注意を一様注意マップに置き換える新しいアプローチを提案する。本手法は,ノイズ予測時のテキスト条件の変化による歪みを効果的に抑制する。実験結果から,本手法は高忠実度画像再構成に優れるだけでなく,実際の画像合成や編集のシナリオにも頑健に機能することが示された。
論文参考訳（メタデータ） (2024-11-29T12:11:28Z)
Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文参考訳（メタデータ） (2024-11-21T18:59:51Z)
SeedEdit: Align Image Re-Generation to Image Editing [23.461716630027436]
本稿では,任意のテキストプロンプトで任意の画像を修正可能な拡散モデルであるSeedEditを紹介する。このような2つの方向の間に多様なペアを生成する弱いジェネレータ(text-to-image model)から始める。 SeedEditは、以前の画像編集方法よりも多種多様な安定した編集機能を実現することができる。
論文参考訳（メタデータ） (2024-11-11T03:06:26Z)
A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。 T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文参考訳（メタデータ） (2024-06-20T17:58:52Z)
Zero-shot Image Editing with Reference Imitation [50.75310094611476]
我々は、ユーザーがより便利に創造性を発揮できるように、模倣編集と呼ばれる新しい形態の編集を提示する。ビデオクリップから2つのフレームをランダムに選択し、あるフレームのいくつかの領域をマスクし、他のフレームからの情報を用いてマスクされた領域を復元する、MimicBrushと呼ばれる生成学習フレームワークを提案する。各種試験事例における本手法の有効性を実験的に示すとともに,既存手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-06-11T17:59:51Z)
Eta Inversion: Designing an Optimal Eta Function for Diffusion-based Real Image Editing [2.5602836891933074]
実際の画像を編集するための一般的な戦略は、拡散過程を反転させて元の画像のノイズ表現を得る。拡散反転の現在の方法は、しばしば特定のテキストプロンプトに忠実で、ソースイメージによく似ている編集を生成するのに苦労する。本稿では, DDIMサンプリング式における$eta$の役割を理論的に解析し, 編集性の向上を図った, 実画像編集のための新規かつ適応的な拡散インバージョン手法を提案する。
論文参考訳（メタデータ） (2024-03-14T15:07:36Z)
Diffusion Model-Based Image Editing: A Survey [46.244266782108234]
様々な画像生成や編集作業のための強力なツールとして,拡散モデルが登場している。本稿では,画像編集のための拡散モデルを用いた既存手法の概要について述べる。テキスト誘導画像編集アルゴリズムの性能を更に評価するために,系統的なベンチマークであるEditEvalを提案する。
論文参考訳（メタデータ） (2024-02-27T14:07:09Z)
Differential Diffusion: Giving Each Pixel Its Strength [10.36919027402249]
本稿では,画素単位や画像領域ごとの変化量をカスタマイズできる新しいフレームワークを提案する。私たちのフレームワークは既存の拡散モデルに統合することができ、この機能で拡張できます。提案手法を現在のオープン・オブ・ザ・アーティファクト・モデルで実証し,定量的および定性的な比較によって検証する。
論文参考訳（メタデータ） (2023-06-01T17:47:06Z)
End-to-End Visual Editing with a Generatively Pre-Trained Artist [78.5922562526874]
対象画像編集の問題として、ソース画像内の領域と、所望の変更を指定したドライバ画像とをブレンドすることを考える。対象領域のオフザシェルフ画像を拡大することにより編集をシミュレートする自己教師型アプローチを提案する。我々は、モデルアーキテクチャに他の変更を加えることなく、拡張プロセスの直感的な制御によって異なるブレンディング効果が学習できることを示します。
論文参考訳（メタデータ） (2022-05-03T17:59:30Z)
Learning by Planning: Language-Guided Global Image Editing [53.72807421111136]
あいまいな編集言語要求を一連の編集操作にマッピングするテキスト・ツー・オペレーティング・モデルを開発した。タスクの唯一の監督はターゲットイメージであり、シーケンシャルな決定の安定したトレーニングには不十分である。本研究では,対象画像から可能な編集シーケンスを疑似基底真理として生成する,新たな操作計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-24T16:30:03Z)
Look here! A parametric learning based approach to redirect visual attention [49.609412873346386]
画像領域を微妙な画像編集によってより注目度の高いものにするための自動手法を提案する。我々のモデルは、前景および背景画像領域に適用可能な、異なるグローバルパラメトリック変換セットを予測する。編集により、任意の画像サイズでインタラクティブなレートでの推論が可能になり、簡単に動画に一般化できる。
論文参考訳（メタデータ） (2020-08-12T16:08:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。