Fugu-MT 論文翻訳(概要): Click2Mask: Local Editing with Dynamic Mask Generation

論文の概要: Click2Mask: Local Editing with Dynamic Mask Generation

arxiv url: http://arxiv.org/abs/2409.08272v1
Date: Thu, 12 Sep 2024 17:59:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-13 15:24:38.775747
Title: Click2Mask: Local Editing with Dynamic Mask Generation
Title（参考訳）: Click2Mask: 動的マスク生成によるローカル編集
Authors: Omer Regev, Omri Avrahami, Dani Lischinski,
Abstract要約: Click2Maskは、単一の参照ポイントしか必要とせず、ローカル編集プロセスを単純化する新しいアプローチである。我々の実験は、Click2Maskがユーザーの努力を最小限に抑えるだけでなく、競争力や優れたローカル画像操作結果を提供することを示した。
参考スコア（独自算出の注目度）: 23.89536337989824
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent advancements in generative models have revolutionized image generation and editing, making these tasks accessible to non-experts. This paper focuses on local image editing, particularly the task of adding new content to a loosely specified area. Existing methods often require a precise mask or a detailed description of the location, which can be cumbersome and prone to errors. We propose Click2Mask, a novel approach that simplifies the local editing process by requiring only a single point of reference (in addition to the content description). A mask is dynamically grown around this point during a Blended Latent Diffusion (BLD) process, guided by a masked CLIP-based semantic loss. Click2Mask surpasses the limitations of segmentation-based and fine-tuning dependent methods, offering a more user-friendly and contextually accurate solution. Our experiments demonstrate that Click2Mask not only minimizes user effort but also delivers competitive or superior local image manipulation results compared to SoTA methods, according to both human judgement and automatic metrics. Key contributions include the simplification of user input, the ability to freely add objects unconstrained by existing segments, and the integration potential of our dynamic mask approach within other editing methods.
Abstract（参考訳）: 生成モデルの最近の進歩は、画像生成と編集に革命をもたらし、これらのタスクは非専門家にアクセスできるようになった。本稿では,局所的な画像編集,特にゆるやかに指定された領域に新たなコンテンツを追加することに焦点を当てる。既存の方法は、しばしば正確なマスクや位置の詳細な説明を必要とする。我々はClick2Maskを提案する。Click2Maskは、コンテンツ記述に加えて、単一の参照ポイントしか必要とせず、ローカル編集プロセスを単純化する新しいアプローチである。マスクは、Blended Latent Diffusion (BLD)プロセス中に、マスク付きCLIPベースのセマンティックロスによって誘導される。 Click2Maskはセグメンテーションベースおよび微調整依存メソッドの制限を超越し、よりユーザフレンドリでコンテキスト的に正確なソリューションを提供する。我々の実験は、Click2Maskがユーザーの努力を最小限に抑えるだけでなく、人間の判断と自動測定の両方で、SoTA法と比較して、競争力や優れた局所画像操作結果を提供することを示した。主なコントリビューションには、ユーザ入力の単純化、既存のセグメントに制約のないオブジェクトを自由に追加する機能、他の編集方法におけるダイナミックマスクアプローチの統合可能性などがあります。

関連論文リスト

SmartEraser: Remove Anything from Images using Masked-Region Guidance [114.36809682798784]
SmartEraserはMasked-Region Guidanceと呼ばれる新しい削除パラダイムで構築されている。 Masked-Region Guidanceは、削除プロセスのガイダンスとして、入力中のマスクされた領域を保持します。大規模オブジェクト除去データセットであるSyn4Removalを提案する。
論文参考訳（メタデータ） (2025-01-14T17:55:12Z)
High-Quality Mask Tuning Matters for Open-Vocabulary Segmentation [109.19165503929992]
ここでは,CLIPのマスク分類能力を高めるために,生成されたマスクの代わりに接地トラスマスクを使用するMaskCLIP++を提案する。低コストの微調整を経て、MaskCLIP++はマルチドメインデータセットのマスク分類性能を大幅に改善した。我々は,A-847,PC-459,A-150,PC-59,PAS-20データセット上で+1.7,+2.3,+2.1,+3.1,+0.3 mIoUの性能改善を実現する。
論文参考訳（メタデータ） (2024-12-16T05:44:45Z)
BrushEdit: All-In-One Image Inpainting and Editing [79.55816192146762]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文参考訳（メタデータ） (2024-12-13T17:58:06Z)
FlexEdit: Marrying Free-Shape Masks to VLLM for Flexible Image Editing [25.18320863976491]
本稿では,フレキシブル編集のための自由形状マスクと言語命令の両方を活用する,エンドツーエンドの画像編集手法であるFlexEditを提案する。 LLMに基づく画像編集において,本手法は最先端(SOTA)性能を実現し,簡単なプロンプト技術はその有効性で際立っている。
論文参考訳（メタデータ） (2024-08-22T14:22:07Z)
ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文参考訳（メタデータ） (2024-07-17T22:04:00Z)
Lazy Diffusion Transformer for Interactive Image Editing [79.75128130739598]
部分的な画像更新を効率的に生成する新しい拡散変換器であるLazyDiffusionを導入する。提案手法は,空白キャンバスや画像から,ユーザが局所的な画像修正のシーケンスを指定するインタラクティブな画像編集アプリケーションを対象としている。
論文参考訳（メタデータ） (2024-04-18T17:59:27Z)
Variance-insensitive and Target-preserving Mask Refinement for Interactive Image Segmentation [68.16510297109872]
ポイントベースのインタラクティブなイメージセグメンテーションは、セマンティックセグメンテーションや画像編集といったアプリケーションにおけるマスクアノテーションの負担を軽減することができる。本稿では,ユーザ入力の少ないセグメンテーション品質を向上する新しい手法である可変無感・ターゲット保存マスクリファインメントを提案する。 GrabCut、バークレー、SBD、DAVISデータセットの実験は、インタラクティブな画像セグメンテーションにおける我々の手法の最先端性能を実証している。
論文参考訳（メタデータ） (2023-12-22T02:31:31Z)
Automatic Generation of Semantic Parts for Face Image Synthesis [7.728916126705043]
セグメンテーションマスクにおけるオブジェクトクラスの形状を自動操作または生成する問題に対処するネットワークアーキテクチャについて述べる。提案モデルでは,各クラス埋め込みを独立して編集可能な潜在空間にマスクのクラスワイズを埋め込むことができる。本稿では,Celeb-MaskHQデータセットの定量的および定性的な結果について報告する。
論文参考訳（メタデータ） (2023-07-11T15:01:42Z)
Mask to reconstruct: Cooperative Semantics Completion for Video-text Retrieval [19.61947785487129]
Mask for Semantics Completion (MASCOT) - 意味に基づくマスキングモデル。我々のMASCOTは4つの主要なテキストビデオ検索ベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2023-05-13T12:31:37Z)
DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic Segmentation Using Diffusion Models [68.21154597227165]
本研究では,オフザシェルフ安定拡散モデルにより生成された合成画像の正確なセマンティックマスクを自動で取得できることを示す。我々のアプローチはDiffuMaskと呼ばれ、テキストと画像間の相互注意マップの可能性を利用しています。
論文参考訳（メタデータ） (2023-03-21T08:43:15Z)
Layered Depth Refinement with Mask Guidance [61.10654666344419]
汎用マスクを用いてSIDEモデルの深度予測を洗練させるマスク誘導深度改善の新しい問題を定式化する。本フレームワークは,奥行きマップをマスクと逆マスクで表される2つの別々の層に分解し,層状改質・塗装・塗装を行う。本手法は,内面境界領域と外面境界領域の深度を正確に補正し,異なる種類のマスクや初期深度予測に対して堅牢であることを示す。
論文参考訳（メタデータ） (2022-06-07T06:42:44Z)
FocalClick: Towards Practical Interactive Image Segmentation [19.472284443121367]
対話的なセグメンテーションにより、ユーザはポジティブ/ネガティブなクリックによってターゲットマスクを抽出できる。 F FocalClickは、ローカライズされた領域でマスクを予測および更新することで、両方の問題を同時に解決する。プログレッシブマージ(Progressive Merge)は、形態情報を利用して、保存場所と更新場所を決定することで、既存のマスクを効果的に洗練することができる。
論文参考訳（メタデータ） (2022-04-06T04:32:01Z)
Open-Vocabulary Instance Segmentation via Robust Cross-Modal Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文参考訳（メタデータ） (2021-11-24T18:50:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。