論文の概要: Inharmonious Region Localization
- arxiv url: http://arxiv.org/abs/2104.09453v1
- Date: Mon, 19 Apr 2021 17:12:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 13:46:08.167618
- Title: Inharmonious Region Localization
- Title(参考訳): 不調和地域化
- Authors: Jing Liang, Li Niu, Liqing Zhang
- Abstract要約: 不調和な地域をローカライズすることは魅力的だが難しい課題だ。
我々は,新しい双方向特徴統合(BFI)ブロックとグローバルコンテキストガイドデコーダ(GGD)ブロックを設計し,エンコーダとデコーダのマルチスケール機能を融合する。
画像調和データセットの実験により,不調和領域の局所化に対する競合性能が得られた。
- 参考スコア(独自算出の注目度): 17.862459937346365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advance of image editing techniques allows users to create artistic
works, but the manipulated regions may be incompatible with the background.
Localizing the inharmonious region is an appealing yet challenging task.
Realizing that this task requires effective aggregation of multi-scale
contextual information and suppression of redundant information, we design
novel Bi-directional Feature Integration (BFI) block and Global-context Guided
Decoder (GGD) block to fuse multi-scale features in the encoder and decoder
respectively. We also employ Mask-guided Dual Attention (MDA) block between the
encoder and decoder to suppress the redundant information. Experiments on the
image harmonization dataset demonstrate that our method achieves competitive
performance for inharmonious region localization. The source code is available
at https://github.com/bcmi/DIRL.
- Abstract(参考訳): 画像編集技術の進歩により、ユーザーは芸術作品を作成することができるが、操作された領域は背景と互換性がない可能性がある。
不調和な地域をローカライズすることは魅力的だが難しい課題だ。
このタスクには, マルチスケールのコンテキスト情報の効果的な集約と冗長情報の抑制が必要であることを認識し, エンコーダとデコーダのマルチスケール機能を融合させるために, 双方向特徴統合(BFI)ブロックとグローバルコンテキストガイドデコーダ(GGD)ブロックを設計する。
また、エンコーダとデコーダの間にマスク誘導デュアルアテンション(MDA)ブロックを用いて冗長情報を抑圧する。
画像調和データセットの実験により,不調和領域の局所化に対する競合性能が得られた。
ソースコードはhttps://github.com/bcmi/DIRL.comで入手できる。
関連論文リスト
- Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models [16.737419222106308]
本稿では,FakeShieldの設計とIFDLタスクを提案する。
FakeShieldは、画像の信頼性を評価し、改ざんされた領域マスクを生成し、画素レベルおよび画像レベルの改ざんヒントに基づいた判断ベースを提供するマルチモーダルフレームワークである。
実験では、FakeShieldは様々な改ざん手法を効果的に検出し、ローカライズし、従来のIFDL法と比較して説明可能で優れた解を提供する。
論文 参考訳(メタデータ) (2024-10-03T17:59:34Z) - Addressing Domain Discrepancy: A Dual-branch Collaborative Model to Unsupervised Dehazing [1.6624384368855527]
本稿では、この問題に対処する新しい二分岐協調脱ハージングモデル(DCM-dehaze)を提案する。
具体的には,DDSCM (Double Deepwise Separable Convolutional Module) を設計し,より深い特徴の情報を強化する。
さらに、画像のエッジ特徴を最適化し、画像の明瞭度と忠実度を高めるために、双方向の輪郭関数を構築した。
論文 参考訳(メタデータ) (2024-07-14T14:47:32Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Divided Attention: Unsupervised Multi-Object Discovery with Contextually
Separated Slots [78.23772771485635]
本研究では,視覚領域を独立した移動領域に分割し,基礎的な真実や監督を伴わずに訓練する手法を提案する。
Slot Attentionに基づく逆条件エンコーダ・デコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2023-04-04T00:26:13Z) - Region-Aware Diffusion for Zero-shot Text-driven Image Editing [78.58917623854079]
本稿では,エンティティレベルの画像編集のための領域認識拡散モデル(RDM)を提案する。
画像の忠実度と推論速度のバランスをとるために,集中拡散パイプラインを設計する。
その結果、RDMは、視覚的品質、全体的な調和、非編集領域のコンテンツ保存、テキストイメージのセマンティック一貫性において、従来のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2023-02-23T06:20:29Z) - Inharmonious Region Localization via Recurrent Self-Reasoning [18.963031309495005]
合成画像の品質向上のためには,不調和領域の局所化が重要でありながら課題である。
古典的なクラスタリングアルゴリズムにインスパイアされた我々は、ピクセルを2つのクラスタ、すなわち不調和なクラスタとバックグラウンドクラスタにグループ化することを目指している。
論文 参考訳(メタデータ) (2022-10-05T05:50:24Z) - Free-Form Image Inpainting via Contrastive Attention Network [64.05544199212831]
画像の塗装作業では、複雑なパターンを形成する画像のどこにでも、どんな形でもマスクが現れる。
エンコーダはこの複雑な状況下でこのような強力な表現を捕捉することは困難である。
本稿では,ロバスト性と一般化性を改善するための自己教師型シームズ推論ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-29T14:46:05Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。