論文の概要: CLIPAway: Harmonizing Focused Embeddings for Removing Objects via Diffusion Models
- arxiv url: http://arxiv.org/abs/2406.09368v1
- Date: Thu, 13 Jun 2024 17:50:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 16:15:58.967556
- Title: CLIPAway: Harmonizing Focused Embeddings for Removing Objects via Diffusion Models
- Title(参考訳): CLIPAway: 拡散モデルによるオブジェクトの除去のための集中型埋め込みの調和
- Authors: Yigit Ekin, Ahmet Burak Yildirim, Erdem Eren Caglar, Aykut Erdem, Erkut Erdem, Aysegul Dundar,
- Abstract要約: CLIPAwayは、CLIP埋め込みを活用して、前景要素を除外しながらバックグラウンドリージョンに集中する新しいアプローチである。
背景を優先する埋め込みを識別することで、塗装精度と品質を向上させる。
特別なトレーニングデータセットや高価な手作業によるアノテーションに依存する他の方法とは異なり、CLIPAwayは柔軟なプラグイン・アンド・プレイソリューションを提供する。
- 参考スコア(独自算出の注目度): 16.58831310165623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advanced image editing techniques, particularly inpainting, are essential for seamlessly removing unwanted elements while preserving visual integrity. Traditional GAN-based methods have achieved notable success, but recent advancements in diffusion models have produced superior results due to their training on large-scale datasets, enabling the generation of remarkably realistic inpainted images. Despite their strengths, diffusion models often struggle with object removal tasks without explicit guidance, leading to unintended hallucinations of the removed object. To address this issue, we introduce CLIPAway, a novel approach leveraging CLIP embeddings to focus on background regions while excluding foreground elements. CLIPAway enhances inpainting accuracy and quality by identifying embeddings that prioritize the background, thus achieving seamless object removal. Unlike other methods that rely on specialized training datasets or costly manual annotations, CLIPAway provides a flexible, plug-and-play solution compatible with various diffusion-based inpainting techniques.
- Abstract(参考訳): 高度な画像編集技術、特に塗装は、視覚的整合性を維持しながら不要な要素をシームレスに除去するために不可欠である。
従来のGANベースの手法は顕著な成功を収めてきたが、近年の拡散モデルの進歩は大規模なデータセットのトレーニングによって優れた結果をもたらし、驚くほどリアルなインペイント画像の生成を可能にした。
その強みにもかかわらず、拡散モデルは明示的なガイダンスなしでオブジェクト除去タスクに苦しむことが多く、削除されたオブジェクトの意図しない幻覚につながる。
この問題を解決するために、CLIP埋め込みを利用した新しいアプローチであるCLIPAwayを紹介します。
CLIPAwayは、背景を優先する埋め込みを識別することで、ペイントの精度と品質を高め、シームレスなオブジェクト削除を実現する。
特別なトレーニングデータセットや高価な手作業によるアノテーションに依存する他の方法とは異なり、CLIPAwayは様々な拡散ベースのインペイント技術と互換性のある柔軟なプラグアンドプレイソリューションを提供する。
関連論文リスト
- VDOR: A Video-based Dataset for Object Removal via Sequence Consistency [19.05827956984347]
オブジェクトの削除に関連する既存のデータセットは、モデルの検証と最適化の貴重な基盤となる。
本稿では,現実的な照明を意識したオブジェクト除去データセットを構築するための,新しいビデオベースのアノテーションパイプラインを提案する。
連続した実世界のビデオフレームを活用することで、分配ギャップを最小化し、リアルなライティングと影のバリエーションを正確にキャプチャする。
論文 参考訳(メタデータ) (2025-01-13T15:12:40Z) - Edicho: Consistent Image Editing in the Wild [90.42395533938915]
エディコは拡散モデルに基づく訓練なしの解を踏む。
これは、明示的な画像対応を使って直接編集する基本的な設計原理を特徴としている。
論文 参考訳(メタデータ) (2024-12-30T16:56:44Z) - Attentive Eraser: Unleashing Diffusion Model's Object Removal Potential via Self-Attention Redirection Guidance [4.295971864740951]
Attentive Eraser は、安定かつ効果的な物体除去のために、事前訓練された拡散モデルを強化するチューニング不要な手法である。
本稿では、自己注意機構を再設計するASS(Attention Activation and Suppression)を紹介する。
また、ASSによる自己注意リダイレクトを利用して生成プロセスのガイドを行う自己注意リダイレクトガイダンス(SARG)についても紹介する。
論文 参考訳(メタデータ) (2024-12-17T14:56:59Z) - ExpRDiff: Short-exposure Guided Diffusion Model for Realistic Local Motion Deblurring [61.82010103478833]
そこで本稿では,コンテキストベースの局所的ぼかし検出モジュールを開発し,さらにコンテキスト情報を加えて,ぼかし領域の識別を改善する。
最新のスマートフォンには、短時間露光画像を提供するカメラが備わっていることを考慮し、ぼやけたガイド付き画像復元法を開発した。
上記のコンポーネントを ExpRDiff という名前のシンプルで効果的なネットワークに定式化します。
論文 参考訳(メタデータ) (2024-12-12T11:42:39Z) - EditScout: Locating Forged Regions from Diffusion-based Edited Images with Multimodal LLM [50.054404519821745]
本稿では,多モーダル大規模言語モデルを統合した新しいフレームワークを提案する。
我々のフレームワークはMagicBrush、AutoSplice、PerfBrushデータセットの有望な結果を達成する。
特に,本手法は,これまで目に見えなかった種類の編集を特徴とする自己構築型テストセットであるPerfBrushデータセットを最適化する。
論文 参考訳(メタデータ) (2024-12-05T02:05:33Z) - MagicEraser: Erasing Any Objects via Semantics-Aware Control [40.683569840182926]
オブジェクト消去タスクに適した拡散モデルに基づくフレームワークであるMagicEraserを紹介する。
MagicEraserは、望ましくないアーティファクトを緩和しながら、コンテンツ生成の微細かつ効果的な制御を実現する。
論文 参考訳(メタデータ) (2024-10-14T07:03:14Z) - TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。
TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。
本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-07T08:52:21Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。