論文の概要: TiNO-Edit: Timestep and Noise Optimization for Robust Diffusion-Based Image Editing
- arxiv url: http://arxiv.org/abs/2404.11120v1
- Date: Wed, 17 Apr 2024 07:08:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 14:55:00.634541
- Title: TiNO-Edit: Timestep and Noise Optimization for Robust Diffusion-Based Image Editing
- Title(参考訳): TiNO編集:ロバスト拡散に基づく画像編集における時間と雑音の最適化
- Authors: Sherry X. Chen, Yaron Vaxman, Elad Ben Baruch, David Asulin, Aviad Moreshet, Kuo-Chin Lien, Misha Sra, Pradeep Sen,
- Abstract要約: 我々は、編集中のノイズパターンと拡散時間の最適化に焦点をあてたSDベースのTiNO-Editを提案する。
SDの潜在領域で動作する新しい損失関数のセットを提案し、最適化を大幅に高速化する。
本手法は,Textual InversionやDreamBoothなど,SDのバリエーションに容易に適用することができる。
- 参考スコア(独自算出の注目度): 12.504661526518234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite many attempts to leverage pre-trained text-to-image models (T2I) like Stable Diffusion (SD) for controllable image editing, producing good predictable results remains a challenge. Previous approaches have focused on either fine-tuning pre-trained T2I models on specific datasets to generate certain kinds of images (e.g., with a specific object or person), or on optimizing the weights, text prompts, and/or learning features for each input image in an attempt to coax the image generator to produce the desired result. However, these approaches all have shortcomings and fail to produce good results in a predictable and controllable manner. To address this problem, we present TiNO-Edit, an SD-based method that focuses on optimizing the noise patterns and diffusion timesteps during editing, something previously unexplored in the literature. With this simple change, we are able to generate results that both better align with the original images and reflect the desired result. Furthermore, we propose a set of new loss functions that operate in the latent domain of SD, greatly speeding up the optimization when compared to prior approaches, which operate in the pixel domain. Our method can be easily applied to variations of SD including Textual Inversion and DreamBooth that encode new concepts and incorporate them into the edited results. We present a host of image-editing capabilities enabled by our approach. Our code is publicly available at https://github.com/SherryXTChen/TiNO-Edit.
- Abstract(参考訳): 安定拡散(SD)のような事前訓練されたテキスト・ツー・イメージ・モデル(T2I)を制御可能な画像編集に活用しようとする試みは多いが、優れた予測可能な結果を生み出すことは依然として課題である。
以前のアプローチでは、特定のデータセット上で訓練済みのT2Iモデルを微調整して、特定の種類の画像(例えば、特定のオブジェクトや人)を生成するか、画像生成装置をコークスして所望の結果を生成するために、各入力画像の重み、テキストプロンプト、および/または学習機能を最適化することに重点を置いていた。
しかし、これらのアプローチには欠点があり、予測可能かつ制御可能な方法で良い結果を出すことができない。
この問題に対処するため,本研究では,編集中のノイズパターンと拡散時間の最適化に焦点を当てたSDベースのTiNO-Editを提案する。
この単純な変更によって、元のイメージとよりよく一致し、望ましい結果を反映する結果を生成することができます。
さらに,SDの潜在領域で動作する新たな損失関数のセットを提案し,画素領域で動作する従来のアプローチと比較して最適化を大幅に高速化する。
本手法は,テキスト変換やDreamBoothなどのSDのバリエーションに容易に適用でき,新しい概念をエンコードして編集結果に組み込むことができる。
我々は,我々のアプローチによって実現された画像編集機能について紹介する。
私たちのコードはhttps://github.com/SherryXTChen/TiNO-Editで公開されています。
関連論文リスト
- PostEdit: Posterior Sampling for Efficient Zero-Shot Image Editing [63.38854614997581]
拡散サンプリングプロセスを制御するために後続のスキームを組み込んだPostEditを導入する。
提案したPostEditは、未編集領域を正確に保存しながら、最先端の編集性能を実現する。
インバージョンもトレーニングも不要で、約1.5秒と18GBのGPUメモリを必要とするため、高品質な結果が得られる。
論文 参考訳(メタデータ) (2024-10-07T09:04:50Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Preserving Identity with Variational Score for General-purpose 3D Editing [48.314327790451856]
Pivaは拡散モデルに基づいて画像や3Dモデルを編集する新しい最適化手法である。
我々は2Dと3Dの編集の限界を指摘し、細かな損失と過飽和を引き起こす。
恒常保存を強制する追加のスコア蒸留項を提案する。
論文 参考訳(メタデータ) (2024-06-13T09:32:40Z) - Wavelet-Guided Acceleration of Text Inversion in Diffusion-Based Image
Editing [24.338298020188155]
画像編集を高速化しながらNull-text Inversion(NTI)の原理を維持する革新的な手法を提案する。
本稿では,周波数特性に基づいてテキスト最適化の終端を決定するWave-Estimatorを提案する。
このアプローチは、NTI法と比較して平均編集時間を80%以上削減しつつ、NTIに匹敵する性能を維持している。
論文 参考訳(メタデータ) (2024-01-18T08:26:37Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - Eliminating Contextual Prior Bias for Semantic Image Editing via
Dual-Cycle Diffusion [35.95513392917737]
Dual-Cycle Diffusionと呼ばれる新しいアプローチは、画像編集をガイドするアンバイアスマスクを生成する。
提案手法の有効性を実証し,D-CLIPスコアを0.272から0.283に改善した。
論文 参考訳(メタデータ) (2023-02-05T14:30:22Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Null-text Inversion for Editing Real Images using Guided Diffusion
Models [44.27570654402436]
精度の高い逆変換手法を導入し、直感的なテキストベースの画像修正を容易にする。
我々のNull-textインバージョンは、公開されている安定拡散モデルに基づいて、様々な画像に対して広範囲に評価し、迅速な編集を行う。
論文 参考訳(メタデータ) (2022-11-17T18:58:14Z) - SDEdit: Image Synthesis and Editing with Stochastic Differential
Equations [113.35735935347465]
微分方程式を用いた最近の生成モデルに基づく微分編集(SDEdit)を導入する。
ユーザが編集した入力画像が与えられたら、まずSDEに従って入力にノイズを付加し、その後、逆SDEをシミュレートして、その確率を前より徐々に増加させます。
GANインバージョンに基づく最近の画像編集手法において重要な要素であるタスク固有損失関数の設計は不要である。
論文 参考訳(メタデータ) (2021-08-02T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。