論文の概要: Semantic-guided Multi-Mask Image Harmonization
- arxiv url: http://arxiv.org/abs/2207.11722v1
- Date: Sun, 24 Jul 2022 11:48:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 14:12:11.682636
- Title: Semantic-guided Multi-Mask Image Harmonization
- Title(参考訳): 意味誘導型マルチマスク画像調和
- Authors: Xuqian Ren, Yifan Liu
- Abstract要約: セマンティック誘導型マルチマスク画像調和タスクを提案する。
本研究では,一連のオペレーターマスクを予測することにより,不調和な画像を編集する新しい方法を提案する。
- 参考スコア(独自算出の注目度): 10.27974860479791
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous harmonization methods focus on adjusting one inharmonious region in
an image based on an input mask. They may face problems when dealing with
different perturbations on different semantic regions without available input
masks. To deal with the problem that one image has been pasted with several
foregrounds coming from different images and needs to harmonize them towards
different domain directions without any mask as input, we propose a new
semantic-guided multi-mask image harmonization task. Different from the
previous single-mask image harmonization task, each inharmonious image is
perturbed with different methods according to the semantic segmentation masks.
Two challenging benchmarks, HScene and HLIP, are constructed based on $150$ and
$19$ semantic classes, respectively. Furthermore, previous baselines focus on
regressing the exact value for each pixel of the harmonized images. The
generated results are in the `black box' and cannot be edited. In this work, we
propose a novel way to edit the inharmonious images by predicting a series of
operator masks. The masks indicate the level and the position to apply a
certain image editing operation, which could be the brightness, the saturation,
and the color in a specific dimension. The operator masks provide more
flexibility for users to edit the image further. Extensive experiments verify
that the operator mask-based network can further improve those state-of-the-art
methods which directly regress RGB images when the perturbations are
structural. Experiments have been conducted on our constructed benchmarks to
verify that our proposed operator mask-based framework can locate and modify
the inharmonious regions in more complex scenes. Our code and models are
available at
https://github.com/XuqianRen/Semantic-guided-Multi-mask-Image-Harmonization.git.
- Abstract(参考訳): 従来のハーモニゼーション手法は,入力マスクに基づく画像中の1つの不調和領域の調整に重点を置いている。
異なるセマンティクス領域で異なる摂動を扱う場合、入力マスクを使わずに問題が発生する可能性がある。
異なる画像から得られた複数の前景を1枚の画像に貼り付け、入力としてマスクを使わずに異なる領域方向に向けて調和させるという問題に対処するため、新しい意味誘導型マルチマスク画像調和タスクを提案する。
従来のシングルマスク画像調和タスクとは異なり、各不調和画像はセマンティックセグメンテーションマスクに応じて異なる方法で摂動される。
HSceneとHLIPという2つの挑戦的なベンチマークは、それぞれ150ドルと19ドルのセマンティッククラスに基づいて構築されている。
さらに、以前のベースラインは、調和した画像の各ピクセルの正確な値を回帰することに重点を置いている。
生成された結果は 'black box' に含まれており、編集はできない。
本研究では,一連のオペレーターマスクを予測して不調和な画像を編集する方法を提案する。
マスクは、特定の次元の明るさ、彩度、色など、特定の画像編集操作を適用するためのレベルと位置を示す。
オペレーターマスクは、ユーザーが画像をさらに編集するための柔軟性を提供する。
広汎な実験により、オペレーターマスクベースのネットワークは、摂動が構造的であるときにRGB画像を直接回帰する最先端の手法をさらに改善できることを確認した。
提案する操作者マスクベースのフレームワークが,より複雑な場面で不調和な領域を発見・修正できることを確認するため,構築したベンチマークを用いて実験を行った。
私たちのコードとモデルはhttps://github.com/xuqianren/semantic-guided-multi-mask-image-harmonization.gitで利用可能です。
関連論文リスト
- Semantic Image Synthesis with Unconditional Generator [8.65146533481257]
本稿では,事前訓練した非条件生成器を用いて,プロキシマスクに従って特徴マップを再構成することを提案する。
プロキシマスクは、単純なクラスタリングによってジェネレータ内のランダムサンプルの特徴マップから作成される。
提案手法は,実画像の自由な空間編集,スケッチ・ツー・フォト,スクリブル・ツー・フォトなど,様々な用途に応用できる。
論文 参考訳(メタデータ) (2024-02-22T09:10:28Z) - Variance-insensitive and Target-preserving Mask Refinement for
Interactive Image Segmentation [68.16510297109872]
ポイントベースのインタラクティブなイメージセグメンテーションは、セマンティックセグメンテーションや画像編集といったアプリケーションにおけるマスクアノテーションの負担を軽減することができる。
本稿では,ユーザ入力の少ないセグメンテーション品質を向上する新しい手法である可変無感・ターゲット保存マスクリファインメントを提案する。
GrabCut、バークレー、SBD、DAVISデータセットの実験は、インタラクティブな画像セグメンテーションにおける我々の手法の最先端性能を実証している。
論文 参考訳(メタデータ) (2023-12-22T02:31:31Z) - Segment (Almost) Nothing: Prompt-Agnostic Adversarial Attacks on
Segmentation Models [61.46999584579775]
汎用セグメンテーションモデルは、様々なプロンプトから(意味)セグメンテーションマスクを生成することができる。
特に、入力画像は、イメージエンコーダによって前処理され、後にマスク予測に使用される埋め込みベクトルを得る。
我々は、半径$エプシロン=1/255$の知覚不能な摂動でさえ、ポイント、ボックス、テキストプロンプトで予測されるマスクを劇的に修正するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-24T12:57:34Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Towards Improved Input Masking for Convolutional Neural Networks [66.99060157800403]
層マスキングと呼ぶCNNのための新しいマスキング手法を提案する。
本手法は,マスク形状や色がモデル出力に与える影響を排除あるいは最小化することができることを示す。
また,マスクの形状がクラスに関する情報を漏洩させる可能性を示し,クラス関連特徴に対するモデル依存度の推定に影響を及ぼすことを示した。
論文 参考訳(メタデータ) (2022-11-26T19:31:49Z) - RePaint: Inpainting using Denoising Diffusion Probabilistic Models [161.74792336127345]
Free-form Inpaintingは任意のバイナリマスクで指定された領域のイメージに新しいコンテンツを追加するタスクである。
RePaint: A Denoising Probabilistic Model (DDPM) を用いた塗装手法を提案する。
本手法は,標準的なマスクと極端マスクを用いて,顔と汎用画像の塗装の両面で検証する。
論文 参考訳(メタデータ) (2022-01-24T18:40:15Z) - GANSeg: Learning to Segment by Unsupervised Hierarchical Image
Generation [16.900404701997502]
本稿では,潜伏マスクに条件付き画像を生成するGANベースのアプローチを提案する。
このようなマスク条件の画像生成は、マスクを階層的に条件付ける際に忠実に学習できることを示す。
また、セグメンテーションネットワークをトレーニングするためのイメージマスクペアの生成も可能で、既存のベンチマークでは、最先端の教師なしセグメンテーションメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-12-02T07:57:56Z) - Image Inpainting by End-to-End Cascaded Refinement with Mask Awareness [66.55719330810547]
任意の欠落領域を塗りつぶすことは、様々なマスクされた領域で有効な特徴を学ぶことは非自明だから難しい。
符号化フェーズにおける欠落領域のマルチスケール特徴を学習する新しいマスク対応インペイントソリューションを提案する。
私たちのフレームワークは、3つの公開データセットに関する広範な実験を通じて定量的および定性的に検証されます。
論文 参考訳(メタデータ) (2021-04-28T13:17:47Z) - Few-shot Semantic Image Synthesis Using StyleGAN Prior [8.528384027684192]
本稿では,STYPEGANを用いたセマンティックマスクの擬似ラベリングを行うトレーニング戦略を提案する。
私たちの重要なアイデアは、semantic masksの例から、スタイルガン機能と各セマンティッククラスの単純なマッピングを構築することです。
擬似セマンティックマスクは、ピクセル整列マスクを必要とする従来のアプローチでは粗いかもしれないが、我々のフレームワークは、濃密なセマンティックマスクだけでなく、ランドマークやスクリブルのようなスパース入力から高品質な画像を合成することができる。
論文 参考訳(メタデータ) (2021-03-27T11:04:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。