論文の概要: Learning Position-Aware Implicit Neural Network for Real-World Face
Inpainting
- arxiv url: http://arxiv.org/abs/2401.10537v1
- Date: Fri, 19 Jan 2024 07:31:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 16:30:32.624354
- Title: Learning Position-Aware Implicit Neural Network for Real-World Face
Inpainting
- Title(参考訳): 実世界顔ペンキのための位置認識型暗示ニューラルネットワークの学習
- Authors: Bo Zhao, Huan Yang and Jianlong Fu
- Abstract要約: 顔の塗装には、モデルが顔の位置構造を正確に理解する必要がある。
本稿では,実世界のシナリオにおいて任意の形状の顔画像を扱うためのtextbfImplicit textbfNeural textbfInpainting textbfNetwork (IN$2$)を提案する。
- 参考スコア(独自算出の注目度): 55.87303287274932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face inpainting requires the model to have a precise global understanding of
the facial position structure. Benefiting from the powerful capabilities of
deep learning backbones, recent works in face inpainting have achieved decent
performance in ideal setting (square shape with $512px$). However, existing
methods often produce a visually unpleasant result, especially in the
position-sensitive details (e.g., eyes and nose), when directly applied to
arbitrary-shaped images in real-world scenarios. The visually unpleasant
position-sensitive details indicate the shortcomings of existing methods in
terms of position information processing capability. In this paper, we propose
an \textbf{I}mplicit \textbf{N}eural \textbf{I}npainting \textbf{N}etwork
(IN$^2$) to handle arbitrary-shape face images in real-world scenarios by
explicit modeling for position information. Specifically, a downsample
processing encoder is proposed to reduce information loss while obtaining the
global semantic feature. A neighbor hybrid attention block is proposed with a
hybrid attention mechanism to improve the facial understanding ability of the
model without restricting the shape of the input. Finally, an implicit neural
pyramid decoder is introduced to explicitly model position information and
bridge the gap between low-resolution features and high-resolution output.
Extensive experiments demonstrate the superiority of the proposed method in
real-world face inpainting task.
- Abstract(参考訳): フェイスインペインティングでは、モデルが顔の位置構造を正確にグローバルに理解する必要がある。
深層学習のバックボーンの強力な能力から恩恵を受けながら、近年の塗り絵は理想的な設定(512px$の正方形)で優れたパフォーマンスを実現している。
しかし、既存の手法はしばしば視覚的に不快な結果をもたらし、特に実世界のシナリオにおいて任意の形の画像に直接適用する場合、位置感応的な細部(眼と鼻など)において顕著である。
視覚的に不快な位置感性の詳細は、位置情報処理能力の観点から既存の手法の欠点を示している。
本稿では,位置情報の明示的モデリングにより,現実のシナリオにおける任意の形状の顔画像を処理するために,textbf{I}mplicit \textbf{N}eural \textbf{I}npainting \textbf{N}etwork (IN$^2$)を提案する。
具体的には,ダウンサンプル処理エンコーダを提案し,グローバル意味的特徴を生かしながら情報損失を低減する。
入力の形状を制約することなくモデルの顔認識能力を向上させるために,ハイブリッドアテンション機構を備えた隣り合うハイブリッドアテンションブロックを提案する。
最後に、位置情報を明示的にモデル化し、低解像度特徴と高解像度出力のギャップを埋める暗黙のニューラルネットワークピラミッドデコーダを導入する。
実世界の顔塗装作業において,提案手法の優位性を示す実験を行った。
関連論文リスト
- DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Outpainting by Queries [23.626012684754965]
我々は、textbfQuery textbfOutpainting textbfTRansformer (textbfQueryOTR) という、新しいハイブリッドビジョントランスフォーマーベースのエンコーダデコーダフレームワークを提案する。
我々は、QueryOTRが、最先端画像よりもスムーズかつ現実的に、視覚的に魅力的な結果を生成できることを実験的に示した。
論文 参考訳(メタデータ) (2022-07-12T04:48:41Z) - Compressible-composable NeRF via Rank-residual Decomposition [21.92736190195887]
ニューラル・ラジアンス・フィールド(NeRF)は、3Dオブジェクトやシーンをリアルにレンダリングするための魅力的な方法として登場した。
本稿では,モデルの効率的かつ便利な操作を可能にするニューラル表現を提案する。
提案手法は,圧縮と合成の余分な能力を実現しつつ,最先端の手法に匹敵するレンダリング品質を実現することができる。
論文 参考訳(メタデータ) (2022-05-30T06:18:59Z) - Unconstrained Face Sketch Synthesis via Perception-Adaptive Network and
A New Benchmark [16.126100433405398]
顔領域と顔成分を正確に知覚することは、制約のないスケッチ合成に不可欠である、と我々は主張する。
本研究では,制約のない条件下で高品質な顔スケッチを生成できる新しい知覚適応ネットワーク(PANet)を提案する。
WildSketchと呼ばれる新しいベンチマークは、800対の顔写真スケッチを含み、ポーズ、表現、民族的起源、背景、照明に大きなバリエーションがある。
論文 参考訳(メタデータ) (2021-12-02T07:08:31Z) - Face Sketch Synthesis via Semantic-Driven Generative Adversarial Network [10.226808267718523]
本稿では,グローバルな構造レベルのインジェクションと局所的なクラスレベルの知識再重み付けを組み込んだセマンティック・ドリブン・ジェネレータ・ネットワーク(SDGAN)を提案する。
具体的には、入力された顔写真に対して顔の塩分濃度検出を行い、全体的な顔のテクスチャ構造を提供する。
さらに,SDGANのジェネレータにグローバルな構造的スタイルの注入を強制する前に,顔解析のレイアウトを意味的空間として活用する。
論文 参考訳(メタデータ) (2021-06-29T07:03:56Z) - Inverting Generative Adversarial Renderer for Face Reconstruction [58.45125455811038]
本稿では,GAR(Generative Adversa Renderer)について紹介する。
GARは、グラフィックルールに頼るのではなく、複雑な現実世界のイメージをモデル化することを学ぶ。
本手法は,複数顔再構成における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-05-06T04:16:06Z) - Deep Generation of Face Images from Sketches [36.146494762987146]
ディープ・イメージ・ツー・イメージの翻訳技術により、フリーハンドスケッチから高速に顔画像を生成することができる。
既存のソリューションはスケッチに過度に適合する傾向にあり、プロのスケッチやエッジマップを入力として必要とします。
本稿では,画像の形状空間を暗黙的にモデル化し,この空間の顔画像を合成し,入力スケッチを近似する手法を提案する。
本手法は,入力スケッチをソフトな制約として使用することにより,粗いスケッチや不完全なスケッチであっても高品質な顔画像を生成することができる。
論文 参考訳(メタデータ) (2020-06-01T16:20:23Z) - Exploiting Semantics for Face Image Deblurring [121.44928934662063]
本稿では,深層畳み込みニューラルネットワークによる意味的手がかりを利用して,効果的かつ効率的な顔分解アルゴリズムを提案する。
顔のセマンティックラベルを入力先として組み込んで,顔の局所構造を正規化するための適応的構造損失を提案する。
提案手法は、より正確な顔の特徴と細部を持つシャープ画像を復元する。
論文 参考訳(メタデータ) (2020-01-19T13:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。