論文の概要: Click2Mask: Local Editing with Dynamic Mask Generation
- arxiv url: http://arxiv.org/abs/2409.08272v1
- Date: Thu, 12 Sep 2024 17:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 15:24:38.775747
- Title: Click2Mask: Local Editing with Dynamic Mask Generation
- Title(参考訳): Click2Mask: 動的マスク生成によるローカル編集
- Authors: Omer Regev, Omri Avrahami, Dani Lischinski,
- Abstract要約: Click2Maskは、単一の参照ポイントしか必要とせず、ローカル編集プロセスを単純化する新しいアプローチである。
我々の実験は、Click2Maskがユーザーの努力を最小限に抑えるだけでなく、競争力や優れたローカル画像操作結果を提供することを示した。
- 参考スコア(独自算出の注目度): 23.89536337989824
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advancements in generative models have revolutionized image generation and editing, making these tasks accessible to non-experts. This paper focuses on local image editing, particularly the task of adding new content to a loosely specified area. Existing methods often require a precise mask or a detailed description of the location, which can be cumbersome and prone to errors. We propose Click2Mask, a novel approach that simplifies the local editing process by requiring only a single point of reference (in addition to the content description). A mask is dynamically grown around this point during a Blended Latent Diffusion (BLD) process, guided by a masked CLIP-based semantic loss. Click2Mask surpasses the limitations of segmentation-based and fine-tuning dependent methods, offering a more user-friendly and contextually accurate solution. Our experiments demonstrate that Click2Mask not only minimizes user effort but also delivers competitive or superior local image manipulation results compared to SoTA methods, according to both human judgement and automatic metrics. Key contributions include the simplification of user input, the ability to freely add objects unconstrained by existing segments, and the integration potential of our dynamic mask approach within other editing methods.
- Abstract(参考訳): 生成モデルの最近の進歩は、画像生成と編集に革命をもたらし、これらのタスクは非専門家にアクセスできるようになった。
本稿では,局所的な画像編集,特にゆるやかに指定された領域に新たなコンテンツを追加することに焦点を当てる。
既存の方法は、しばしば正確なマスクや位置の詳細な説明を必要とする。
我々はClick2Maskを提案する。Click2Maskは、コンテンツ記述に加えて、単一の参照ポイントしか必要とせず、ローカル編集プロセスを単純化する新しいアプローチである。
マスクは、Blended Latent Diffusion (BLD)プロセス中に、マスク付きCLIPベースのセマンティックロスによって誘導される。
Click2Maskはセグメンテーションベースおよび微調整依存メソッドの制限を超越し、よりユーザフレンドリでコンテキスト的に正確なソリューションを提供する。
我々の実験は、Click2Maskがユーザーの努力を最小限に抑えるだけでなく、人間の判断と自動測定の両方で、SoTA法と比較して、競争力や優れた局所画像操作結果を提供することを示した。
主なコントリビューションには、ユーザ入力の単純化、既存のセグメントに制約のないオブジェクトを自由に追加する機能、他の編集方法におけるダイナミックマスクアプローチの統合可能性などがあります。
関連論文リスト
- SmartEraser: Remove Anything from Images using Masked-Region Guidance [114.36809682798784]
SmartEraserはMasked-Region Guidanceと呼ばれる新しい削除パラダイムで構築されている。
Masked-Region Guidanceは、削除プロセスのガイダンスとして、入力中のマスクされた領域を保持します。
大規模オブジェクト除去データセットであるSyn4Removalを提案する。
論文 参考訳(メタデータ) (2025-01-14T17:55:12Z) - MaskCLIP++: A Mask-Based CLIP Fine-tuning Framework for Open-Vocabulary Image Segmentation [109.19165503929992]
オープン語彙画像のセグメンテーションはマスク生成器と視覚言語モデルとの相乗効果によって進歩している。
MaskCLIP++と呼ばれる新しい微調整フレームワークを提案し、このフレームワークは生成されたマスクの代わりにグラウンドトルースマスクを使用する。
我々は,A-847,PC-459,A-150,PC-59,PAS-20データセット上で+1.7,+2.3,+2.1,+3.1,+0.3 mIoUの性能改善を実現する。
論文 参考訳(メタデータ) (2024-12-16T05:44:45Z) - BrushEdit: All-In-One Image Inpainting and Editing [79.55816192146762]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。
本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。
本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-13T17:58:06Z) - FlexEdit: Marrying Free-Shape Masks to VLLM for Flexible Image Editing [25.18320863976491]
本稿では,フレキシブル編集のための自由形状マスクと言語命令の両方を活用する,エンドツーエンドの画像編集手法であるFlexEditを提案する。
LLMに基づく画像編集において,本手法は最先端(SOTA)性能を実現し,簡単なプロンプト技術はその有効性で際立っている。
論文 参考訳(メタデータ) (2024-08-22T14:22:07Z) - Lazy Diffusion Transformer for Interactive Image Editing [79.75128130739598]
部分的な画像更新を効率的に生成する新しい拡散変換器であるLazyDiffusionを導入する。
提案手法は,空白キャンバスや画像から,ユーザが局所的な画像修正のシーケンスを指定するインタラクティブな画像編集アプリケーションを対象としている。
論文 参考訳(メタデータ) (2024-04-18T17:59:27Z) - Variance-insensitive and Target-preserving Mask Refinement for
Interactive Image Segmentation [68.16510297109872]
ポイントベースのインタラクティブなイメージセグメンテーションは、セマンティックセグメンテーションや画像編集といったアプリケーションにおけるマスクアノテーションの負担を軽減することができる。
本稿では,ユーザ入力の少ないセグメンテーション品質を向上する新しい手法である可変無感・ターゲット保存マスクリファインメントを提案する。
GrabCut、バークレー、SBD、DAVISデータセットの実験は、インタラクティブな画像セグメンテーションにおける我々の手法の最先端性能を実証している。
論文 参考訳(メタデータ) (2023-12-22T02:31:31Z) - Automatic Generation of Semantic Parts for Face Image Synthesis [7.728916126705043]
セグメンテーションマスクにおけるオブジェクトクラスの形状を自動操作または生成する問題に対処するネットワークアーキテクチャについて述べる。
提案モデルでは,各クラス埋め込みを独立して編集可能な潜在空間にマスクのクラスワイズを埋め込むことができる。
本稿では,Celeb-MaskHQデータセットの定量的および定性的な結果について報告する。
論文 参考訳(メタデータ) (2023-07-11T15:01:42Z) - Mask to reconstruct: Cooperative Semantics Completion for Video-text
Retrieval [19.61947785487129]
Mask for Semantics Completion (MASCOT) - 意味に基づくマスキングモデル。
我々のMASCOTは4つの主要なテキストビデオ検索ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-05-13T12:31:37Z) - Layered Depth Refinement with Mask Guidance [61.10654666344419]
汎用マスクを用いてSIDEモデルの深度予測を洗練させるマスク誘導深度改善の新しい問題を定式化する。
本フレームワークは,奥行きマップをマスクと逆マスクで表される2つの別々の層に分解し,層状改質・塗装・塗装を行う。
本手法は,内面境界領域と外面境界領域の深度を正確に補正し,異なる種類のマスクや初期深度予測に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2022-06-07T06:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。