論文の概要: SmartMask: Context Aware High-Fidelity Mask Generation for Fine-grained
Object Insertion and Layout Control
- arxiv url: http://arxiv.org/abs/2312.05039v1
- Date: Fri, 8 Dec 2023 13:38:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 14:59:38.104784
- Title: SmartMask: Context Aware High-Fidelity Mask Generation for Fine-grained
Object Insertion and Layout Control
- Title(参考訳): SmartMask: きめ細かいオブジェクト挿入とレイアウト制御のためのコンテキスト対応高忠実マスク生成
- Authors: Jaskirat Singh, Jianming Zhang, Qing Liu, Cameron Smith, Zhe Lin,
Liang Zheng
- Abstract要約: 初心者が正確なオブジェクト挿入のための詳細なマスクを作成できるSmartMaskを紹介した。
実験により,SmartMaskはより優れたオブジェクト挿入品質を実現することが示された。
従来の手法とは異なり、提案手法はユーザ・マスクのガイダンスを使わずに利用できる。
- 参考スコア(独自算出の注目度): 37.25722058326221
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of generative image inpainting and object insertion has made
significant progress with the recent advent of latent diffusion models.
Utilizing a precise object mask can greatly enhance these applications.
However, due to the challenges users encounter in creating high-fidelity masks,
there is a tendency for these methods to rely on more coarse masks (e.g.,
bounding box) for these applications. This results in limited control and
compromised background content preservation. To overcome these limitations, we
introduce SmartMask, which allows any novice user to create detailed masks for
precise object insertion. Combined with a ControlNet-Inpaint model, our
experiments demonstrate that SmartMask achieves superior object insertion
quality, preserving the background content more effectively than previous
methods. Notably, unlike prior works the proposed approach can also be used
even without user-mask guidance, which allows it to perform mask-free object
insertion at diverse positions and scales. Furthermore, we find that when used
iteratively with a novel instruction-tuning based planning model, SmartMask can
be used to design detailed layouts from scratch. As compared with user-scribble
based layout design, we observe that SmartMask allows for better quality
outputs with layout-to-image generation methods. Project page is available at
https://smartmask-gen.github.io
- Abstract(参考訳): 近年の潜伏拡散モデルの出現により, 画像のインペイントや物体挿入の分野は大きな進歩を遂げている。
精密なオブジェクトマスクを利用することで、これらの応用を大幅に強化することができる。
しかし、ユーザーが高忠実度マスクを作成する際に直面する課題のため、これらの手法はより粗いマスク(例えば、バウンディングボックス)に依存する傾向にある。
これにより、制御が制限され、背景コンテンツの保存が損なわれた。
この制限を克服するため、SmartMaskを導入し、初心者でも正確なオブジェクト挿入のための詳細なマスクを作成できる。
ControlNet-Inpaint モデルと組み合わせることで,SmartMask が従来の手法よりも効果的にバックグラウンドコンテンツを保存し,優れたオブジェクト挿入品質を実現することを示す。
特に、以前の作業とは異なり、提案手法はユーザマスクガイダンスなしでも使用できるため、さまざまな位置やスケールでマスクフリーなオブジェクト挿入が可能だ。
さらに,新しいインストラクションチューニングベースの計画モデルで反復的に使用すると,smartmaskを使って詳細なレイアウトをスクラッチから設計できることがわかった。
ユーザ記述型レイアウト設計と比較すると,SmartMaskはレイアウト・ツー・イメージ生成方式で高品質な出力を実現する。
プロジェクトページはhttps://smartmask-gen.github.ioで閲覧できる。
関連論文リスト
- Click2Mask: Local Editing with Dynamic Mask Generation [23.89536337989824]
Click2Maskは、単一の参照ポイントしか必要とせず、ローカル編集プロセスを単純化する新しいアプローチである。
我々の実験は、Click2Maskがユーザーの努力を最小限に抑えるだけでなく、競争力や優れたローカル画像操作結果を提供することを示した。
論文 参考訳(メタデータ) (2024-09-12T17:59:04Z) - ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Towards Improved Input Masking for Convolutional Neural Networks [66.99060157800403]
層マスキングと呼ぶCNNのための新しいマスキング手法を提案する。
本手法は,マスク形状や色がモデル出力に与える影響を排除あるいは最小化することができることを示す。
また,マスクの形状がクラスに関する情報を漏洩させる可能性を示し,クラス関連特徴に対するモデル依存度の推定に影響を及ぼすことを示した。
論文 参考訳(メタデータ) (2022-11-26T19:31:49Z) - BoxTeacher: Exploring High-Quality Pseudo Labels for Weakly Supervised
Instance Segmentation [33.64088504387974]
BoxTeacherは、高性能に教師付きされたインスタンスセグメンテーションのための効率的でエンドツーエンドのトレーニングフレームワークである。
疑似マスクの質を推定するために,マスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスを適応的に最適化する。
論文 参考訳(メタデータ) (2022-10-11T06:23:30Z) - Layered Depth Refinement with Mask Guidance [61.10654666344419]
汎用マスクを用いてSIDEモデルの深度予測を洗練させるマスク誘導深度改善の新しい問題を定式化する。
本フレームワークは,奥行きマップをマスクと逆マスクで表される2つの別々の層に分解し,層状改質・塗装・塗装を行う。
本手法は,内面境界領域と外面境界領域の深度を正確に補正し,異なる種類のマスクや初期深度予測に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2022-06-07T06:42:44Z) - MaskMTL: Attribute prediction in masked facial images with deep
multitask learning [9.91045425400833]
本稿では,マスク付き顔画像から多種多様な特徴を共同で推定する深層マルチタスク学習(MTL)手法を提案する。
提案手法は、他の競合技術よりも性能が優れている。
論文 参考訳(メタデータ) (2022-01-09T13:03:29Z) - Ternary Feature Masks: zero-forgetting for task-incremental learning [68.34518408920661]
本稿では,タスク認識体制の継続的な学習を忘れずにアプローチを提案する。
第三のマスクを使用することで、モデルを新しいタスクにアップグレードしたり、以前のタスクからの知識を再利用したりできます。
本手法は,重みに基づく手法と比較して,メモリオーバーヘッドを低減しつつ,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2020-01-23T18:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。