論文の概要: Inharmonious Region Localization
- arxiv url: http://arxiv.org/abs/2104.09453v1
- Date: Mon, 19 Apr 2021 17:12:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 13:46:08.167618
- Title: Inharmonious Region Localization
- Title(参考訳): 不調和地域化
- Authors: Jing Liang, Li Niu, Liqing Zhang
- Abstract要約: 不調和な地域をローカライズすることは魅力的だが難しい課題だ。
我々は,新しい双方向特徴統合(BFI)ブロックとグローバルコンテキストガイドデコーダ(GGD)ブロックを設計し,エンコーダとデコーダのマルチスケール機能を融合する。
画像調和データセットの実験により,不調和領域の局所化に対する競合性能が得られた。
- 参考スコア(独自算出の注目度): 17.862459937346365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advance of image editing techniques allows users to create artistic
works, but the manipulated regions may be incompatible with the background.
Localizing the inharmonious region is an appealing yet challenging task.
Realizing that this task requires effective aggregation of multi-scale
contextual information and suppression of redundant information, we design
novel Bi-directional Feature Integration (BFI) block and Global-context Guided
Decoder (GGD) block to fuse multi-scale features in the encoder and decoder
respectively. We also employ Mask-guided Dual Attention (MDA) block between the
encoder and decoder to suppress the redundant information. Experiments on the
image harmonization dataset demonstrate that our method achieves competitive
performance for inharmonious region localization. The source code is available
at https://github.com/bcmi/DIRL.
- Abstract(参考訳): 画像編集技術の進歩により、ユーザーは芸術作品を作成することができるが、操作された領域は背景と互換性がない可能性がある。
不調和な地域をローカライズすることは魅力的だが難しい課題だ。
このタスクには, マルチスケールのコンテキスト情報の効果的な集約と冗長情報の抑制が必要であることを認識し, エンコーダとデコーダのマルチスケール機能を融合させるために, 双方向特徴統合(BFI)ブロックとグローバルコンテキストガイドデコーダ(GGD)ブロックを設計する。
また、エンコーダとデコーダの間にマスク誘導デュアルアテンション(MDA)ブロックを用いて冗長情報を抑圧する。
画像調和データセットの実験により,不調和領域の局所化に対する競合性能が得られた。
ソースコードはhttps://github.com/bcmi/DIRL.comで入手できる。
関連論文リスト
- R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image
Generation [74.5598315066249]
拡散モデルを用いてゼロショット接地T2I生成を探索する。
本稿では,地域境界(R&B)を意識したクロスアテンションガイダンス手法を提案する。
論文 参考訳(メタデータ) (2023-10-13T05:48:42Z) - Effective Image Tampering Localization via Enhanced Transformer and
Co-attention Fusion [5.691973573807887]
本稿では,2分岐拡張型トランスフォーマーエンコーダを用いた画像改ざんネットワーク(EITLNet)を提案する。
RGBとノイズストリームから抽出した特徴は、座標注意に基づく融合モジュールによって効果的に融合される。
論文 参考訳(メタデータ) (2023-09-17T15:43:06Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Divided Attention: Unsupervised Multi-Object Discovery with Contextually
Separated Slots [78.23772771485635]
本研究では,視覚領域を独立した移動領域に分割し,基礎的な真実や監督を伴わずに訓練する手法を提案する。
Slot Attentionに基づく逆条件エンコーダ・デコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2023-04-04T00:26:13Z) - Region-Aware Diffusion for Zero-shot Text-driven Image Editing [78.58917623854079]
本稿では,エンティティレベルの画像編集のための領域認識拡散モデル(RDM)を提案する。
画像の忠実度と推論速度のバランスをとるために,集中拡散パイプラインを設計する。
その結果、RDMは、視覚的品質、全体的な調和、非編集領域のコンテンツ保存、テキストイメージのセマンティック一貫性において、従来のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2023-02-23T06:20:29Z) - Inharmonious Region Localization via Recurrent Self-Reasoning [18.963031309495005]
合成画像の品質向上のためには,不調和領域の局所化が重要でありながら課題である。
古典的なクラスタリングアルゴリズムにインスパイアされた我々は、ピクセルを2つのクラスタ、すなわち不調和なクラスタとバックグラウンドクラスタにグループ化することを目指している。
論文 参考訳(メタデータ) (2022-10-05T05:50:24Z) - Free-Form Image Inpainting via Contrastive Attention Network [64.05544199212831]
画像の塗装作業では、複雑なパターンを形成する画像のどこにでも、どんな形でもマスクが現れる。
エンコーダはこの複雑な状況下でこのような強力な表現を捕捉することは困難である。
本稿では,ロバスト性と一般化性を改善するための自己教師型シームズ推論ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-29T14:46:05Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。