論文の概要: Contrastive Attention Network with Dense Field Estimation for Face
Completion
- arxiv url: http://arxiv.org/abs/2112.10310v1
- Date: Mon, 20 Dec 2021 02:54:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-22 02:24:19.765524
- Title: Contrastive Attention Network with Dense Field Estimation for Face
Completion
- Title(参考訳): 集中場推定による顔完成のためのコントラスト注意ネットワーク
- Authors: Xin Ma, Xiaoqiang Zhou, Huaibo Huang, Gengyun Jia, Zhenhua Chai,
Xiaolin Wei
- Abstract要約: 本稿では,エンコーダの一般化とロバスト性を改善するために,自己教師付きシームズ推論ネットワークを提案する。
顔画像の幾何学的変動に対処するため,ネットワークに高密度対応フィールドを組み込む。
このマルチスケールアーキテクチャは、デコーダがエンコーダから画像に学習した識別表現を利用するのに有用である。
- 参考スコア(独自算出の注目度): 11.631559190975034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most modern face completion approaches adopt an autoencoder or its variants
to restore missing regions in face images. Encoders are often utilized to learn
powerful representations that play an important role in meeting the challenges
of sophisticated learning tasks. Specifically, various kinds of masks are often
presented in face images in the wild, forming complex patterns, especially in
this hard period of COVID-19. It's difficult for encoders to capture such
powerful representations under this complex situation. To address this
challenge, we propose a self-supervised Siamese inference network to improve
the generalization and robustness of encoders. It can encode contextual
semantics from full-resolution images and obtain more discriminative
representations. To deal with geometric variations of face images, a dense
correspondence field is integrated into the network. We further propose a
multi-scale decoder with a novel dual attention fusion module (DAF), which can
combine the restored and known regions in an adaptive manner. This multi-scale
architecture is beneficial for the decoder to utilize discriminative
representations learned from encoders into images. Extensive experiments
clearly demonstrate that the proposed approach not only achieves more appealing
results compared with state-of-the-art methods but also improves the
performance of masked face recognition dramatically.
- Abstract(参考訳): 現代の顔補完アプローチのほとんどは、顔画像の欠落領域を復元するためにオートエンコーダまたはその変種を採用する。
エンコーダは、高度な学習タスクの課題を満たす上で重要な役割を果たす強力な表現を学ぶためにしばしば利用される。
特に、様々な種類のマスクが野生の顔画像に表示され、特にcovid-19の厳しい時期に複雑なパターンを形成している。
このような複雑な状況下で、エンコーダがこのような強力な表現をキャプチャするのは困難です。
この課題に対処するために,エンコーダの一般化とロバスト性を改善する自己教師型シームズ推論ネットワークを提案する。
フル解像度画像から文脈意味をエンコードし、より識別的な表現を得ることができる。
顔画像の幾何学的変化に対処するために、密接な対応フィールドをネットワークに統合する。
さらに,復元された領域と既知の領域を適応的に結合可能なdaf(dual attention fusion module)を備えたマルチスケールデコーダを提案する。
このマルチスケールアーキテクチャは、デコーダがエンコーダから画像に学習した識別表現を利用するために有用である。
広範な実験により,提案手法は最先端の手法よりも魅力的な結果を得るだけでなく,マスク付き顔認識の性能を劇的に向上させることが明らかとなった。
関連論文リスト
- MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z) - Leveraging Image Complexity in Macro-Level Neural Network Design for
Medical Image Segmentation [3.974175960216864]
画像の複雑さは、与えられたデータセットに最適なものを選択するためのガイドラインとして利用できることを示す。
高複雑性データセットの場合、元のイメージ上で実行される浅いネットワークは、ダウンサンプリングされたイメージ上で実行されるディープネットワークよりもセグメンテーション結果が優れている可能性がある。
論文 参考訳(メタデータ) (2021-12-21T09:49:47Z) - LAVT: Language-Aware Vision Transformer for Referring Image Segmentation [80.54244087314025]
視覚トランスフォーマーエンコーダネットワークにおいて,言語的特徴と視覚的特徴を早期に融合することにより,より優れたモーダルアライメントを実現することができることを示す。
提案手法は,RefCOCO,RefCO+,G-Refの従来の最先端手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-12-04T04:53:35Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - OLED: One-Class Learned Encoder-Decoder Network with Adversarial Context
Masking for Novelty Detection [1.933681537640272]
新規性検出は、対象クラスの分布に属さないサンプルを認識するタスクである。
ディープオートエンコーダは多くの教師なしのノベルティ検出法のベースとして広く使われている。
我々は,MaskモジュールとReconstructorという2つの競合するネットワークからなるフレームワークを設計した。
論文 参考訳(メタデータ) (2021-03-27T17:59:40Z) - Attention-Based Multimodal Image Matching [16.335191345543063]
本稿では,Transformerエンコーダを用いたマルチモーダル画像パッチマッチングのためのアテンションベースアプローチを提案する。
このエンコーダは,タスク固有の外見不変のイメージキューを強調しつつ,マルチスケールな画像埋め込みを効率的に集約する。
これはTransformerエンコーダアーキテクチャをマルチモーダル画像パッチマッチングタスクに実装した最初の成功例である。
論文 参考訳(メタデータ) (2021-03-20T21:14:24Z) - Free-Form Image Inpainting via Contrastive Attention Network [64.05544199212831]
画像の塗装作業では、複雑なパターンを形成する画像のどこにでも、どんな形でもマスクが現れる。
エンコーダはこの複雑な状況下でこのような強力な表現を捕捉することは困難である。
本稿では,ロバスト性と一般化性を改善するための自己教師型シームズ推論ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-29T14:46:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。