論文の概要: Unbiased Multi-Modality Guidance for Image Inpainting
- arxiv url: http://arxiv.org/abs/2208.11844v1
- Date: Thu, 25 Aug 2022 03:13:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 13:23:01.803407
- Title: Unbiased Multi-Modality Guidance for Image Inpainting
- Title(参考訳): 画像インパインティングのための非バイアスマルチモダリティガイダンス
- Authors: Yongsheng Yu, Dawei Du, Libo Zhang, Tiejian Luo
- Abstract要約: 画像インペイントのためのエンド・ツー・エンドマルチモダリティ誘導型トランスフォーマネットワークを開発した。
各トランスブロック内において,提案した空間認識型アテンションモジュールは,マルチモーダルな構造特徴を効率的に学習することができる。
本手法は,複数のモーダルからの識別情報に基づいて,画像中の意味的一貫した文脈を豊かにする。
- 参考スコア(独自算出の注目度): 27.286351511243502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image inpainting is an ill-posed problem to recover missing or damaged image
content based on incomplete images with masks. Previous works usually predict
the auxiliary structures (e.g., edges, segmentation and contours) to help fill
visually realistic patches in a multi-stage fashion. However, imprecise
auxiliary priors may yield biased inpainted results. Besides, it is
time-consuming for some methods to be implemented by multiple stages of complex
neural networks. To solve this issue, we develop an end-to-end multi-modality
guided transformer network, including one inpainting branch and two auxiliary
branches for semantic segmentation and edge textures. Within each transformer
block, the proposed multi-scale spatial-aware attention module can learn the
multi-modal structural features efficiently via auxiliary denormalization.
Different from previous methods relying on direct guidance from biased priors,
our method enriches semantically consistent context in an image based on
discriminative interplay information from multiple modalities. Comprehensive
experiments on several challenging image inpainting datasets show that our
method achieves state-of-the-art performance to deal with various
regular/irregular masks efficiently.
- Abstract(参考訳): 画像インペインティングは、マスク付きの不完全な画像に基づいて、行方不明または損傷した画像コンテンツを復元する不適切な問題である。
以前の作品は通常補助構造(エッジ、セグメンテーション、輪郭など)を予測し、視覚的に現実的なパッチを多段階的に埋めるのに役立つ。
しかし、不正確な補助前駆体は、偏りのある塗装結果をもたらす可能性がある。
さらに、複雑なニューラルネットワークの複数の段階によって実装されるメソッドには時間がかかる。
この問題を解決するために,1つの塗り込み分岐と2つの補助分岐を含む,エンド・ツー・エンドのマルチモダリティ誘導変圧器ネットワークを開発し,セマンティクスセグメンテーションとエッジテクスチャについて述べる。
各変圧器ブロック内で提案するマルチスケール空間認識アテンションモジュールは、補助的非正規化により、マルチモーダル構造を効率的に学習することができる。
従来の手法と異なり,複数モーダルからの識別的インタープレイ情報に基づいて,画像中の意味的一貫した文脈を充実させる手法である。
いくつかの難解な画像インパインティングデータセットに関する総合的な実験により,本手法は様々な正規/不規則マスクを効率的に処理するための最先端性能を実現する。
関連論文リスト
- Dense Feature Interaction Network for Image Inpainting Localization [28.028361409524457]
画像の悪質な操作において、画像内容の隠蔽や改ざんに使用することができる。
既存の手法は主に基本的なエンコーダ・デコーダ構造に依存しており、多くの場合、偽陽性が多くなる。
本稿では,Dense Feature Interaction Network (DeFI-Net) に基づく新しい塗り絵検出手法について述べる。
論文 参考訳(メタデータ) (2024-08-05T02:35:13Z) - PC-GANs: Progressive Compensation Generative Adversarial Networks for
Pan-sharpening [50.943080184828524]
空間情報とスペクトル情報の漸進的補償によりMS画像のシャープ化を行うパンシャーピングの新しい2段階モデルを提案する。
モデル全体が三重GANで構成されており、特定のアーキテクチャに基づいて、三重GANを同時に訓練できるように、共同補償損失関数が設計されている。
論文 参考訳(メタデータ) (2022-07-29T03:09:21Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - Multi-scale Sparse Representation-Based Shadow Inpainting for Retinal
OCT Images [0.261990490798442]
網膜光コヒーレンス断層撮影(OCT)画像における表面血管による陰影領域の塗布は,正確で堅牢な機械解析と臨床診断に重要である。
近隣情報を伝播して徐々に行方不明地域を埋めるといった従来のシーケンスベースのアプローチは費用対効果が高い。
エンコーダ・デコーダネットワークのような深層学習に基づく手法は、自然な画像の描画タスクにおいて有望な結果を示している。
スパース表現と深層学習を相乗的に適用することにより,OCT画像のマルチスケールシャドウ塗装フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-23T09:37:14Z) - Adaptive Image Inpainting [43.02281823557039]
ディープニューラルネットワークを使用することで、塗装法は大幅に改善されている。
この問題は、欠落した領域の完全かつ忠実な埋め込みを構築する際のエンコーダ層の非効率性に根ざしている。
本稿では, エンコーダ層に対して, 直接的特徴レベルの監視を行う蒸留方式を提案する。
論文 参考訳(メタデータ) (2022-01-01T12:16:01Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z) - Image Inpainting with Edge-guided Learnable Bidirectional Attention Maps [85.67745220834718]
不規則な穴の画像インペインティングを改善するためのエッジガイド学習可能な双方向注意マップ(Edge-LBAM)を紹介します。
当社のEdge-LBAMメソッドには、予測エッジによる構造認識マスク更新を含むデュアルプロシージャが含まれています。
広範な実験により,エッジlbamはコヒーレントな画像構造を生成し,色差やぼやけを防止できることがわかった。
論文 参考訳(メタデータ) (2021-04-25T07:25:16Z) - Attention-Based Multimodal Image Matching [16.335191345543063]
本稿では,Transformerエンコーダを用いたマルチモーダル画像パッチマッチングのためのアテンションベースアプローチを提案する。
このエンコーダは,タスク固有の外見不変のイメージキューを強調しつつ,マルチスケールな画像埋め込みを効率的に集約する。
これはTransformerエンコーダアーキテクチャをマルチモーダル画像パッチマッチングタスクに実装した最初の成功例である。
論文 参考訳(メタデータ) (2021-03-20T21:14:24Z) - Free-Form Image Inpainting via Contrastive Attention Network [64.05544199212831]
画像の塗装作業では、複雑なパターンを形成する画像のどこにでも、どんな形でもマスクが現れる。
エンコーダはこの複雑な状況下でこのような強力な表現を捕捉することは困難である。
本稿では,ロバスト性と一般化性を改善するための自己教師型シームズ推論ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-29T14:46:05Z) - Guidance and Evaluation: Semantic-Aware Image Inpainting for Mixed
Scenes [54.836331922449666]
本稿では,SGE-Net(Semantic Guidance and Evaluation Network)を提案する。
セマンティックセグメンテーションマップをインペイントの各尺度のガイダンスとして利用し、そこで位置依存推論を再評価する。
混合シーンの現実画像に対する実験により,提案手法が最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-03-15T17:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。