論文の概要: CLIPAway: Harmonizing Focused Embeddings for Removing Objects via Diffusion Models
- arxiv url: http://arxiv.org/abs/2406.09368v1
- Date: Thu, 13 Jun 2024 17:50:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-14 16:15:58.967556
- Title: CLIPAway: Harmonizing Focused Embeddings for Removing Objects via Diffusion Models
- Title(参考訳): CLIPAway: 拡散モデルによるオブジェクトの除去のための集中型埋め込みの調和
- Authors: Yigit Ekin, Ahmet Burak Yildirim, Erdem Eren Caglar, Aykut Erdem, Erkut Erdem, Aysegul Dundar,
- Abstract要約: CLIPAwayは、CLIP埋め込みを活用して、前景要素を除外しながらバックグラウンドリージョンに集中する新しいアプローチである。
背景を優先する埋め込みを識別することで、塗装精度と品質を向上させる。
特別なトレーニングデータセットや高価な手作業によるアノテーションに依存する他の方法とは異なり、CLIPAwayは柔軟なプラグイン・アンド・プレイソリューションを提供する。
- 参考スコア(独自算出の注目度): 16.58831310165623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advanced image editing techniques, particularly inpainting, are essential for seamlessly removing unwanted elements while preserving visual integrity. Traditional GAN-based methods have achieved notable success, but recent advancements in diffusion models have produced superior results due to their training on large-scale datasets, enabling the generation of remarkably realistic inpainted images. Despite their strengths, diffusion models often struggle with object removal tasks without explicit guidance, leading to unintended hallucinations of the removed object. To address this issue, we introduce CLIPAway, a novel approach leveraging CLIP embeddings to focus on background regions while excluding foreground elements. CLIPAway enhances inpainting accuracy and quality by identifying embeddings that prioritize the background, thus achieving seamless object removal. Unlike other methods that rely on specialized training datasets or costly manual annotations, CLIPAway provides a flexible, plug-and-play solution compatible with various diffusion-based inpainting techniques.
- Abstract(参考訳): 高度な画像編集技術、特に塗装は、視覚的整合性を維持しながら不要な要素をシームレスに除去するために不可欠である。
従来のGANベースの手法は顕著な成功を収めてきたが、近年の拡散モデルの進歩は大規模なデータセットのトレーニングによって優れた結果をもたらし、驚くほどリアルなインペイント画像の生成を可能にした。
その強みにもかかわらず、拡散モデルは明示的なガイダンスなしでオブジェクト除去タスクに苦しむことが多く、削除されたオブジェクトの意図しない幻覚につながる。
この問題を解決するために、CLIP埋め込みを利用した新しいアプローチであるCLIPAwayを紹介します。
CLIPAwayは、背景を優先する埋め込みを識別することで、ペイントの精度と品質を高め、シームレスなオブジェクト削除を実現する。
特別なトレーニングデータセットや高価な手作業によるアノテーションに依存する他の方法とは異なり、CLIPAwayは様々な拡散ベースのインペイント技術と互換性のある柔軟なプラグアンドプレイソリューションを提供する。
関連論文リスト
- OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting [54.525583840585305]
我々はオブジェクトの削除と挿入を相互依存プロセスとして再概念化する統合フレームワークであるOmniPaintを紹介した。
我々の新しいCFDメトリクスは、コンテキスト整合性とオブジェクト幻覚の堅牢で参照不要な評価を提供する。
論文 参考訳(メタデータ) (2025-03-11T17:55:27Z) - Erase Diffusion: Empowering Object Removal Through Calibrating Diffusion Pathways [13.08168394252538]
Erase inpaintingは、周囲のコンテンツの全体的な一貫性を維持しながら、マスクされた領域内でターゲットオブジェクトを正確に除去することを目的としている。
オブジェクト除去の文脈において,標準拡散の潜在的なパワーを解放することを目的として,Eraase Diffusionと呼ばれる新しいEraase Diffusionを提案する。
提案したEraDiffは,OpenImages V5データセットの最先端性能を実現し,実世界のシナリオにおいて大きな優位性を示す。
論文 参考訳(メタデータ) (2025-03-10T08:06:51Z) - Attentive Eraser: Unleashing Diffusion Model's Object Removal Potential via Self-Attention Redirection Guidance [6.249195110289606]
Attentive Eraser は、安定かつ効果的な物体除去のために、事前訓練された拡散モデルを強化するチューニング不要な手法である。
本稿では、自己注意機構を再設計するASS(Attention Activation and Suppression)を紹介する。
また、ASSによる自己注意リダイレクトを利用して生成プロセスのガイドを行う自己注意リダイレクトガイダンス(SARG)についても紹介する。
論文 参考訳(メタデータ) (2024-12-17T14:56:59Z) - ExpRDiff: Short-exposure Guided Diffusion Model for Realistic Local Motion Deblurring [61.82010103478833]
そこで本稿では,コンテキストベースの局所的ぼかし検出モジュールを開発し,さらにコンテキスト情報を加えて,ぼかし領域の識別を改善する。
最新のスマートフォンには、短時間露光画像を提供するカメラが備わっていることを考慮し、ぼやけたガイド付き画像復元法を開発した。
上記のコンポーネントを ExpRDiff という名前のシンプルで効果的なネットワークに定式化します。
論文 参考訳(メタデータ) (2024-12-12T11:42:39Z) - EditScout: Locating Forged Regions from Diffusion-based Edited Images with Multimodal LLM [50.054404519821745]
本稿では,多モーダル大規模言語モデルを統合した新しいフレームワークを提案する。
我々のフレームワークはMagicBrush、AutoSplice、PerfBrushデータセットの有望な結果を達成する。
特に,本手法は,これまで目に見えなかった種類の編集を特徴とする自己構築型テストセットであるPerfBrushデータセットを最適化する。
論文 参考訳(メタデータ) (2024-12-05T02:05:33Z) - MagicEraser: Erasing Any Objects via Semantics-Aware Control [40.683569840182926]
オブジェクト消去タスクに適した拡散モデルに基づくフレームワークであるMagicEraserを紹介する。
MagicEraserは、望ましくないアーティファクトを緩和しながら、コンテンツ生成の微細かつ効果的な制御を実現する。
論文 参考訳(メタデータ) (2024-10-14T07:03:14Z) - Realistic and Efficient Face Swapping: A Unified Approach with Diffusion Models [69.50286698375386]
フェース・スワッピングのための拡散モデルを改善する新しい手法を提案する。
インペイントトレーニング中にマスクシャッフル技術を導入し、スワップのためのいわゆるユニバーサルモデルを作成することができる。
私たちのアプローチは比較的統一されたアプローチなので、他のオフザシェルフモデルのエラーに対して耐性があります。
論文 参考訳(メタデータ) (2024-09-11T13:43:53Z) - TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。
TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。
本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-07T08:52:21Z) - InsertDiffusion: Identity Preserving Visualization of Objects through a Training-Free Diffusion Architecture [0.0]
InsertDiffusionは、オブジェクトを画像に効率的に埋め込む、トレーニング不要の拡散アーキテクチャである。
提案手法は既製の生成モデルを利用し,微調整の必要性を排除している。
生成タスクを独立したステップに分解することで、InsertDiffusionはスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2024-07-15T10:15:58Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Latent Feature-Guided Diffusion Models for Shadow Removal [50.02857194218859]
本稿では,拡散過程における影領域の詳細を段階的に洗練する,有望なアプローチとして拡散モデルの利用を提案する。
シャドウフリー画像の特徴を継承する学習された潜在特徴空間を条件付けすることで,この処理を改善する。
AISTDデータセット上でRMSEを13%向上させる手法の有効性を示す。
論文 参考訳(メタデータ) (2023-12-04T18:59:55Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Take a Prior from Other Tasks for Severe Blur Removal [52.380201909782684]
知識蒸留に基づくクロスレベル特徴学習戦略
多レベルアグリゲーションとセマンティックアテンション変換によるセマンティック事前埋め込み層を効果的に統合する。
GoProやRealBlurのデータセットのような、自然な画像劣化ベンチマークと実世界の画像の実験は、我々の方法の有効性と能力を実証している。
論文 参考訳(メタデータ) (2023-02-14T08:30:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。