論文の概要: PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models
- arxiv url: http://arxiv.org/abs/2502.04050v1
- Date: Thu, 06 Feb 2025 13:08:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:32:35.494467
- Title: PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models
- Title(参考訳): パート編集:事前学習拡散モデルを用いた微粒化画像編集
- Authors: Aleksandar Cvejic, Abdelrahman Eldesokey, Peter Wonka,
- Abstract要約: 本稿では,事前学習した拡散モデルに基づくオブジェクト部品に対する最初のテキストベースの画像編集手法を提案する。
提案手法は, 利用者の77~90%に好まれる。
- 参考スコア(独自算出の注目度): 80.98455219375862
- License:
- Abstract: We present the first text-based image editing approach for object parts based on pre-trained diffusion models. Diffusion-based image editing approaches capitalized on the deep understanding of diffusion models of image semantics to perform a variety of edits. However, existing diffusion models lack sufficient understanding of many object parts, hindering fine-grained edits requested by users. To address this, we propose to expand the knowledge of pre-trained diffusion models to allow them to understand various object parts, enabling them to perform fine-grained edits. We achieve this by learning special textual tokens that correspond to different object parts through an efficient token optimization process. These tokens are optimized to produce reliable localization masks at each inference step to localize the editing region. Leveraging these masks, we design feature-blending and adaptive thresholding strategies to execute the edits seamlessly. To evaluate our approach, we establish a benchmark and an evaluation protocol for part editing. Experiments show that our approach outperforms existing editing methods on all metrics and is preferred by users 77-90% of the time in conducted user studies.
- Abstract(参考訳): 本稿では,事前学習した拡散モデルに基づくオブジェクト部品に対する最初のテキストベースの画像編集手法を提案する。
拡散に基づく画像編集アプローチは、様々な編集を行うために、画像意味論の拡散モデルの理解を深めた。
しかし、既存の拡散モデルは多くのオブジェクト部分の十分な理解に欠けており、ユーザが要求する細かい編集を妨げている。
そこで本研究では,事前学習した拡散モデルの知識を拡張し,様々な対象部分の理解を可能にし,微細な編集を行えるようにすることを提案する。
我々は、効率的なトークン最適化プロセスを通じて、異なるオブジェクト部分に対応する特別なテキストトークンを学習することで、これを実現する。
これらのトークンは、各推論ステップで信頼性の高いローカライズマスクを生成し、編集領域をローカライズするように最適化されている。
これらのマスクを活用することで,編集をシームレスに行うための機能拡張および適応的しきい値設定戦略を設計する。
提案手法を評価するため,部分編集のためのベンチマークと評価プロトコルを構築した。
実験の結果,提案手法はすべてのメトリクスにおいて既存の編集方法よりも優れており,利用者の77~90%が好んでいることがわかった。
関連論文リスト
- Edicho: Consistent Image Editing in the Wild [90.42395533938915]
エディコは拡散モデルに基づく訓練なしの解を踏む。
これは、明示的な画像対応を使って直接編集する基本的な設計原理を特徴としている。
論文 参考訳(メタデータ) (2024-12-30T16:56:44Z) - EditScout: Locating Forged Regions from Diffusion-based Edited Images with Multimodal LLM [50.054404519821745]
本稿では,多モーダル大規模言語モデルを統合した新しいフレームワークを提案する。
我々のフレームワークはMagicBrush、AutoSplice、PerfBrushデータセットの有望な結果を達成する。
特に,本手法は,これまで目に見えなかった種類の編集を特徴とする自己構築型テストセットであるPerfBrushデータセットを最適化する。
論文 参考訳(メタデータ) (2024-12-05T02:05:33Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Eta Inversion: Designing an Optimal Eta Function for Diffusion-based Real Image Editing [2.5602836891933074]
実際の画像を編集するための一般的な戦略は、拡散過程を反転させて元の画像のノイズ表現を得る。
拡散反転の現在の方法は、しばしば特定のテキストプロンプトに忠実で、ソースイメージによく似ている編集を生成するのに苦労する。
本稿では, DDIMサンプリング式における$eta$の役割を理論的に解析し, 編集性の向上を図った, 実画像編集のための新規かつ適応的な拡散インバージョン手法を提案する。
論文 参考訳(メタデータ) (2024-03-14T15:07:36Z) - Diffusion Model-Based Image Editing: A Survey [46.244266782108234]
様々な画像生成や編集作業のための強力なツールとして,拡散モデルが登場している。
本稿では,画像編集のための拡散モデルを用いた既存手法の概要について述べる。
テキスト誘導画像編集アルゴリズムの性能を更に評価するために,系統的なベンチマークであるEditEvalを提案する。
論文 参考訳(メタデータ) (2024-02-27T14:07:09Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z) - Direct Inversion: Boosting Diffusion-based Editing with 3 Lines of Code [19.988947272980848]
ダイレクト・インバージョン(Direct Inversion)は、たった3行のコードで両方のブランチの最適なパフォーマンスを実現する新技術である。
PIE-Benchは700の画像の編集ベンチマークで、様々なシーンや編集タイプを示す。
最先端の最適化に基づく逆変換技術と比較して、我々のソリューションは8つの編集方法にまたがる優れた性能を得るだけでなく、ほぼ1桁のスピードアップも達成する。
論文 参考訳(メタデータ) (2023-10-02T18:01:55Z) - Fine-grained Image Editing by Pixel-wise Guidance Using Diffusion Models [4.855820180160146]
本稿では,画像の拡散に基づく新しい画像編集フレームワークを提案する。
提案手法は,品質と速度を編集するGAN法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-12-05T04:39:08Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。