論文の概要: Segment Anything Model Meets Image Harmonization
- arxiv url: http://arxiv.org/abs/2312.12729v1
- Date: Wed, 20 Dec 2023 02:57:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 17:03:21.798715
- Title: Segment Anything Model Meets Image Harmonization
- Title(参考訳): Segment Anything Modelが画像の調和に対応
- Authors: Haoxing Chen and Yaohui Li and Zhangxuan Gu and Zhuoer Xu and Jun Lan
and Huaxiong Li
- Abstract要約: 合成画像の前景を調整して背景をシームレスに整合させることを目的とした画像合成において,画像調和は重要な技術である。
現在の手法では、グローバルレベルまたはピクセルレベルの特徴マッチングが採用されている。
本研究では,前景と背景特徴の視覚的一貫性学習を導くために,事前学習したセグメンテーションモデル(SAM)によって出力されるセグメンテーションマップを利用する意味誘導型領域認識型インスタンス正規化(SRIN)を提案する。
- 参考スコア(独自算出の注目度): 13.415810438244788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image harmonization is a crucial technique in image composition that aims to
seamlessly match the background by adjusting the foreground of composite
images. Current methods adopt either global-level or pixel-level feature
matching. Global-level feature matching ignores the proximity prior, treating
foreground and background as separate entities. On the other hand, pixel-level
feature matching loses contextual information. Therefore, it is necessary to
use the information from semantic maps that describe different objects to guide
harmonization. In this paper, we propose Semantic-guided Region-aware Instance
Normalization (SRIN) that can utilize the semantic segmentation maps output by
a pre-trained Segment Anything Model (SAM) to guide the visual consistency
learning of foreground and background features. Abundant experiments
demonstrate the superiority of our method for image harmonization over
state-of-the-art methods.
- Abstract(参考訳): 合成画像の前景を調整することで背景をシームレスに整合させる画像合成において,画像調和は重要な技術である。
現在の手法ではグローバルレベルかピクセルレベルの特徴マッチングが採用されている。
グローバルレベルの特徴マッチングは、前景と背景を別々のエンティティとして扱うことで、近接を無視する。
一方、ピクセルレベルの機能マッチングはコンテキスト情報を失う。
したがって、異なるオブジェクトを記述した意味地図からの情報を使って調和を導く必要がある。
本稿では,事前学習されたセグメンテーションモデル(SAM)によって出力されるセグメンテーションマップを利用して,前景と背景の特徴の視覚的整合性学習を導くセグメンテーションモデル(SRIN)を提案する。
最先端手法よりも画像調和法の方が優れていることを示す。
関連論文リスト
- Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - FRIH: Fine-grained Region-aware Image Harmonization [49.420765789360836]
我々は,FRIH(Fentral-Aware Image Harmonization)のための新しいグローバルな2段階フレームワークを提案する。
提案アルゴリズムは,軽量モデルを用いて,iHarmony4データセット(PSNRは38.19dB)上で最高の性能を実現する。
論文 参考訳(メタデータ) (2022-05-13T04:50:26Z) - Image Harmonization by Matching Regional References [10.249228010611617]
最近の画像調和法は, 一般的にグローバルな背景の出現パターンを要約し, 位置差のないグローバルな前景に適用する。
実際の画像では、異なる領域の外観(照度、色温度、彩度、色調、テクスチャなど)が著しく変化する。
外観を世界中に伝達する従来手法は最適ではない。
論文 参考訳(メタデータ) (2022-04-10T16:23:06Z) - Retrieval-based Spatially Adaptive Normalization for Semantic Image
Synthesis [68.1281982092765]
本稿では,Retrieval-based spatially AdaptIve normalization (RESAIL) と呼ばれる新しい正規化モジュールを提案する。
RESAILは、正規化アーキテクチャに対するピクセルレベルのきめ細かいガイダンスを提供する。
いくつかの挑戦的なデータセットの実験により、RESAILは定量的メトリクス、視覚的品質、主観的評価の観点から、最先端技術に対して好意的に機能することが示された。
論文 参考訳(メタデータ) (2022-04-06T14:21:39Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Region-aware Adaptive Instance Normalization for Image Harmonization [14.77918186672189]
フォトリアリスティックな合成画像を得るためには、背景と互換性のある前景の外観と視覚スタイルを調整する必要がある。
合成画像の調和のための既存のディープラーニング手法は、合成画像から実画像へのマッピングネットワークを直接学習する。
本研究では、背景から視覚スタイルを明示的に定式化し、前景に適応的に適用する、領域対応適応型インスタンス正規化(RAIN)モジュールを提案する。
論文 参考訳(メタデータ) (2021-06-05T09:57:17Z) - BargainNet: Background-Guided Domain Translation for Image Harmonization [26.370523451625466]
不調和な前景と背景は合成画像の品質を低下させる。
整合性を改善するために前景を調整した画像調和は、不可欠だが難しい課題である。
本稿では,新しいドメインコード抽出器とよく調整された三重項損失を用いた画像調和ネットワークを提案する。
論文 参考訳(メタデータ) (2020-09-19T05:14:08Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - Unsupervised Learning of Landmarks based on Inter-Intra Subject
Consistencies [72.67344725725961]
本稿では,物体間ランドマーク成分を顔画像に組み込むことにより,画像ランドマーク発見のための教師なし学習手法を提案する。
これは、補助的な主題関連構造に基づいて、元の主題のランドマークを変換するオブジェクト間マッピングモジュールによって達成される。
変換された画像から元の被写体に戻るために、ランドマーク検出器は、対のオブジェクト内画像と対のオブジェクト間画像の両方に一貫した意味を含む空間的位置を学習せざるを得ない。
論文 参考訳(メタデータ) (2020-04-16T20:38:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。