論文の概要: Differential Diffusion: Giving Each Pixel Its Strength
- arxiv url: http://arxiv.org/abs/2306.00950v2
- Date: Wed, 28 Feb 2024 21:10:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 18:59:49.959033
- Title: Differential Diffusion: Giving Each Pixel Its Strength
- Title(参考訳): 差分拡散:各ピクセルに強度を与える
- Authors: Eran Levin, Ohad Fried
- Abstract要約: 本稿では,画素単位や画像領域ごとの変化量をカスタマイズできる新しいフレームワークを提案する。
私たちのフレームワークは既存の拡散モデルに統合することができ、この機能で拡張できます。
提案手法を現在のオープン・オブ・ザ・アーティファクト・モデルで実証し,定量的および定性的な比較によって検証する。
- 参考スコア(独自算出の注目度): 10.36919027402249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have revolutionized image generation and editing, producing
state-of-the-art results in conditioned and unconditioned image synthesis.
While current techniques enable user control over the degree of change in an
image edit, the controllability is limited to global changes over an entire
edited region. This paper introduces a novel framework that enables
customization of the amount of change per pixel or per image region. Our
framework can be integrated into any existing diffusion model, enhancing it
with this capability. Such granular control on the quantity of change opens up
a diverse array of new editing capabilities, such as control of the extent to
which individual objects are modified, or the ability to introduce gradual
spatial changes. Furthermore, we showcase the framework's effectiveness in
soft-inpainting -- the completion of portions of an image while subtly
adjusting the surrounding areas to ensure seamless integration. Additionally,
we introduce a new tool for exploring the effects of different change
quantities. Our framework operates solely during inference, requiring no model
training or fine-tuning. We demonstrate our method with the current open
state-of-the-art models, and validate it via both quantitative and qualitative
comparisons, and a user study. Our code is available at:
https://github.com/exx8/differential-diffusion
- Abstract(参考訳): 拡散モデルは画像生成と編集に革命をもたらし、条件付きおよび無条件画像合成における最先端の結果を生成する。
現在の技術では、画像編集における変更の程度をユーザが制御できるが、制御性は編集領域全体のグローバルな変更に限られている。
本稿では,画素単位または画像領域単位の変更量のカスタマイズを可能にする新しい枠組みを提案する。
我々のフレームワークは既存の拡散モデルに統合でき、この機能により拡張できます。
このような変更量に対する粒度の制御は、個々のオブジェクトの修正範囲の制御や、徐々に空間的な変更を導入する機能など、さまざまな新しい編集機能を開く。
さらに,画像の一部が完成すると同時に,周囲を微調整してシームレスな統合を実現するという,ソフト・インペインティングにおけるフレームワークの有効性を示す。
さらに,異なる変化量の影響を探索する新しいツールについても紹介する。
私たちのフレームワークは推論中のみ動作し、モデルのトレーニングや微調整は不要です。
本手法を現在のオープン・オブ・ザ・アートモデルを用いて実証し,定量的・質的比較とユーザ・スタディを用いて検証する。
私たちのコードは、https://github.com/exx8/differential-diffusionで利用可能です。
関連論文リスト
- Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - VASE: Object-Centric Appearance and Shape Manipulation of Real Videos [108.60416277357712]
本研究では,オブジェクトの外観と,特にオブジェクトの精密かつ明示的な構造的変更を実行するために設計された,オブジェクト中心のフレームワークを紹介する。
我々は,事前学習した画像条件拡散モデル上にフレームワークを構築し,時間次元を扱うためのレイヤを統合するとともに,形状制御を実現するためのトレーニング戦略とアーキテクチャ修正を提案する。
我々は,画像駆動映像編集タスクにおいて,最先端技術に類似した性能を示し,新しい形状編集機能を示す手法について検討した。
論文 参考訳(メタデータ) (2024-01-04T18:59:24Z) - Iterative Multi-granular Image Editing using Diffusion Models [20.21694969555533]
EMILIE:イテレーティブ・マルチグラニュラー画像エディタを提案する。
新たに提案した設定を評価するためのベンチマークデータセットを新たに導入する。
論文 参考訳(メタデータ) (2023-09-01T17:59:29Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - End-to-End Visual Editing with a Generatively Pre-Trained Artist [78.5922562526874]
対象画像編集の問題として、ソース画像内の領域と、所望の変更を指定したドライバ画像とをブレンドすることを考える。
対象領域のオフザシェルフ画像を拡大することにより編集をシミュレートする自己教師型アプローチを提案する。
我々は、モデルアーキテクチャに他の変更を加えることなく、拡張プロセスの直感的な制御によって異なるブレンディング効果が学習できることを示します。
論文 参考訳(メタデータ) (2022-05-03T17:59:30Z) - Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space
Navigation [136.53288628437355]
コントロール可能なセマンティックイメージ編集により、ユーザーはクリック数回で画像属性全体を変更できる。
現在のアプローチでは、絡み合った属性編集、グローバルなイメージアイデンティティの変更、フォトリアリズムの低下に悩まされることが多い。
本稿では,主に定性評価に焦点を当てた先行研究とは異なり,制御可能な編集性能を測定するための定量的評価手法を提案する。
論文 参考訳(メタデータ) (2021-02-01T21:38:36Z) - Look here! A parametric learning based approach to redirect visual
attention [49.609412873346386]
画像領域を微妙な画像編集によってより注目度の高いものにするための自動手法を提案する。
我々のモデルは、前景および背景画像領域に適用可能な、異なるグローバルパラメトリック変換セットを予測する。
編集により、任意の画像サイズでインタラクティブなレートでの推論が可能になり、簡単に動画に一般化できる。
論文 参考訳(メタデータ) (2020-08-12T16:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。