論文の概要: Differential Diffusion: Giving Each Pixel Its Strength
- arxiv url: http://arxiv.org/abs/2306.00950v1
- Date: Thu, 1 Jun 2023 17:47:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 13:57:30.048316
- Title: Differential Diffusion: Giving Each Pixel Its Strength
- Title(参考訳): 差分拡散:各ピクセルに強度を与える
- Authors: Eran Levin, Ohad Fried
- Abstract要約: 現在のモデルには、ピクセル単位の変更量やイメージフラグメント単位の変更量をカスタマイズする機能がない。
画像フラグメントごとに変更量をカスタマイズできる新しいフレームワークを提案する。
私たちのフレームワークでは、モデルトレーニングや微調整は必要ありません。
- 参考スコア(独自算出の注目度): 5.983405936883196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based image editing has advanced significantly in recent years. With the
rise of diffusion models, image editing via textual instructions has become
ubiquitous. Unfortunately, current models lack the ability to customize the
quantity of the change per pixel or per image fragment, resorting to changing
the entire image in an equal amount, or editing a specific region using a
binary mask. In this paper, we suggest a new framework which enables the user
to customize the quantity of change for each image fragment, thereby enhancing
the flexibility and verbosity of modern diffusion models. Our framework does
not require model training or fine-tuning, but instead performs everything at
inference time, making it easily applicable to an existing model. We show both
qualitatively and quantitatively that our method allows better controllability
and can produce results which are unattainable by existing models. Our code is
available at: https://github.com/exx8/differential-diffusion
- Abstract(参考訳): テキストベースの画像編集は近年大きく進歩している。
拡散モデルの普及に伴い,テキストによる画像編集が普及している。
残念なことに、現在のモデルはピクセル単位または画像フラグメント単位の変更量をカスタマイズする能力が欠けており、画像全体を同じ量に変更したり、バイナリマスクを使用して特定の領域を編集したりしている。
本稿では,画像の断片毎に変化量をカスタマイズし,現代拡散モデルの柔軟性と冗長性を高めるための新しい枠組みを提案する。
私たちのフレームワークはモデルトレーニングや微調整を必要とせず、推論時にすべてを実行するので、既存のモデルに容易に適用できます。
定性的かつ定量的に,本手法により制御性が向上し,既存のモデルでは達成不可能な結果が得られることを示す。
私たちのコードは、https://github.com/exx8/differential-diffusionで利用可能です。
関連論文リスト
- PIXELS: Progressive Image Xemplar-based Editing with Latent Surgery [10.594261300488546]
PIXELSと呼ばれる,市販拡散モデルを用いたプログレッシブな例駆動編集のための新しいフレームワークを提案する。
PIXELSは編集のきめ細かい制御を提供し、ピクセルや領域レベルでの調整を可能にする。
我々は,PIXELSが高品質な編集を効率よく行うことを実証し,定量化と人的評価に顕著な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2025-01-16T20:26:30Z) - Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - VASE: Object-Centric Appearance and Shape Manipulation of Real Videos [108.60416277357712]
本研究では,オブジェクトの外観と,特にオブジェクトの精密かつ明示的な構造的変更を実行するために設計された,オブジェクト中心のフレームワークを紹介する。
我々は,事前学習した画像条件拡散モデル上にフレームワークを構築し,時間次元を扱うためのレイヤを統合するとともに,形状制御を実現するためのトレーニング戦略とアーキテクチャ修正を提案する。
我々は,画像駆動映像編集タスクにおいて,最先端技術に類似した性能を示し,新しい形状編集機能を示す手法について検討した。
論文 参考訳(メタデータ) (2024-01-04T18:59:24Z) - Iterative Multi-granular Image Editing using Diffusion Models [20.21694969555533]
EMILIE:イテレーティブ・マルチグラニュラー画像エディタを提案する。
新たに提案した設定を評価するためのベンチマークデータセットを新たに導入する。
論文 参考訳(メタデータ) (2023-09-01T17:59:29Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - End-to-End Visual Editing with a Generatively Pre-Trained Artist [78.5922562526874]
対象画像編集の問題として、ソース画像内の領域と、所望の変更を指定したドライバ画像とをブレンドすることを考える。
対象領域のオフザシェルフ画像を拡大することにより編集をシミュレートする自己教師型アプローチを提案する。
我々は、モデルアーキテクチャに他の変更を加えることなく、拡張プロセスの直感的な制御によって異なるブレンディング効果が学習できることを示します。
論文 参考訳(メタデータ) (2022-05-03T17:59:30Z) - Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space
Navigation [136.53288628437355]
コントロール可能なセマンティックイメージ編集により、ユーザーはクリック数回で画像属性全体を変更できる。
現在のアプローチでは、絡み合った属性編集、グローバルなイメージアイデンティティの変更、フォトリアリズムの低下に悩まされることが多い。
本稿では,主に定性評価に焦点を当てた先行研究とは異なり,制御可能な編集性能を測定するための定量的評価手法を提案する。
論文 参考訳(メタデータ) (2021-02-01T21:38:36Z) - Look here! A parametric learning based approach to redirect visual
attention [49.609412873346386]
画像領域を微妙な画像編集によってより注目度の高いものにするための自動手法を提案する。
我々のモデルは、前景および背景画像領域に適用可能な、異なるグローバルパラメトリック変換セットを予測する。
編集により、任意の画像サイズでインタラクティブなレートでの推論が可能になり、簡単に動画に一般化できる。
論文 参考訳(メタデータ) (2020-08-12T16:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。