論文の概要: V-LinkNet: Learning Contextual Inpainting Across Latent Space of
Generative Adversarial Network
- arxiv url: http://arxiv.org/abs/2201.00323v1
- Date: Sun, 2 Jan 2022 09:14:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 14:19:48.570806
- Title: V-LinkNet: Learning Contextual Inpainting Across Latent Space of
Generative Adversarial Network
- Title(参考訳): V-LinkNet: 生成的対向ネットワークの潜在空間をまたいだ文脈表現の学習
- Authors: Jireh Jam, Connah Kendrick, Vincent Drouard, Kevin Walker, Moi Hoon
Yap
- Abstract要約: V-LinkNetクロススペース学習戦略ネットワークを提案する。
同一面と同一面の異なる面と同一面の異なる面の塗装性能を比較した。
この結果は,CelebA-HQで標準プロトコルを用いて評価した場合に,技術状況を上回るものとなる。
- 参考スコア(独自算出の注目度): 7.5089719291325325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning methods outperform traditional methods in image inpainting. In
order to generate contextual textures, researchers are still working to improve
on existing methods and propose models that can extract, propagate, and
reconstruct features similar to ground-truth regions. Furthermore, the lack of
a high-quality feature transfer mechanism in deeper layers contributes to
persistent aberrations on generated inpainted regions. To address these
limitations, we propose the V-LinkNet cross-space learning strategy network. To
improve learning on contextualised features, we design a loss model that
employs both encoders. In addition, we propose a recursive residual transition
layer (RSTL). The RSTL extracts high-level semantic information and propagates
it down layers. Finally, we compare inpainting performance on the same face
with different masks and on different faces with the same masks. To improve
image inpainting reproducibility, we propose a standard protocol to overcome
biases with various masks and images. We investigate the V-LinkNet components
using experimental methods. Our result surpasses the state of the art when
evaluated on the CelebA-HQ with the standard protocol. In addition, our model
can generalise well when evaluated on Paris Street View, and Places2 datasets
with the standard protocol.
- Abstract(参考訳): ディープラーニング手法は、イメージインペイントにおける従来の手法より優れている。
文脈的テクスチャを生成するために、研究者は既存の手法を改善し、地上構造に似た特徴を抽出、伝播、再構成できるモデルを提案している。
さらに、より深い層に高品質な特徴伝達機構が欠如していることは、生成した塗膜領域における持続的収差に寄与する。
そこで我々は,v-linknet クロススペース学習戦略ネットワークを提案する。
文脈的特徴の学習を改善するために,両エンコーダを用いた損失モデルを設計する。
さらに,再帰的残留遷移層 (RSTL) を提案する。
RSTLは高レベルなセマンティック情報を抽出し、それを層下へと伝播する。
最後に,同一顔の塗装性能を異なるマスクと同一マスクで異なる顔で比較する。
画像の再現性を向上させるため,様々なマスクや画像のバイアスを克服するための標準プロトコルを提案する。
実験手法を用いてV-LinkNetコンポーネントについて検討する。
この結果は,CelebA-HQで標準プロトコルで評価した場合,技術状況を上回る。
さらに,パリス・ストリート・ビューとplaces2データセットを標準プロトコルで評価すると,このモデルはよく一般化することができる。
関連論文リスト
- BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed
Dual-Branch Diffusion [61.90969199199739]
BrushNetは、ピクセルレベルのマスク付きイメージ機能を事前訓練されたDMに埋め込むために設計された、新しいプラグアンドプレイデュアルブランチモデルである。
BrushNetは、画像品質、マスク領域保存、テキストコヒーレンスを含む7つの主要な指標で、既存のモデルよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-11T17:59:31Z) - ENTED: Enhanced Neural Texture Extraction and Distribution for
Reference-based Blind Face Restoration [51.205673783866146]
我々は,高品質でリアルな肖像画を復元することを目的とした,ブラインドフェイス修復のための新しいフレームワークであるENTEDを提案する。
劣化した入力画像と参照画像の間で高品質なテクスチャ特徴を伝達するために,テクスチャ抽出と分布の枠組みを利用する。
われわれのフレームワークにおけるStyleGANのようなアーキテクチャは、現実的な画像を生成するために高品質な潜伏符号を必要とする。
論文 参考訳(メタデータ) (2024-01-13T04:54:59Z) - Semantic Image Synthesis via Class-Adaptive Cross-Attention [7.147779225315707]
SPADEの代わりにクロスアテンション層を用いて形状型相関を学習し、画像生成プロセスの条件付けを行う。
我々のモデルはSPADEの汎用性を継承し、同時に最先端の世代品質を得るとともに、グローバルおよびローカルスタイルの転送を改善する。
論文 参考訳(メタデータ) (2023-08-30T14:49:34Z) - Diverse Inpainting and Editing with GAN Inversion [4.234367850767171]
近年の逆転法では、実画像はStyleGANの潜伏空間に逆転可能であることが示されている。
本稿では,より困難な課題に取り組み,消去された画像をGANの潜伏空間に逆転させ,リアルな塗り絵や編集を行う。
論文 参考訳(メタデータ) (2023-07-27T17:41:36Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - A Wasserstein GAN for Joint Learning of Inpainting and its Spatial
Optimisation [3.4392739159262145]
空間的インペイントデータ最適化のための最初の生成逆ネットワークを提案する。
従来のアプローチとは対照的に、着色発電機とそれに対応するマスクネットワークのジョイントトレーニングが可能である。
これにより、従来のモデルよりも視覚的品質とスピードが大幅に向上し、現在の最適化ネットワークよりも優れています。
論文 参考訳(メタデータ) (2022-02-11T14:02:36Z) - FT-TDR: Frequency-guided Transformer and Top-Down Refinement Network for
Blind Face Inpainting [77.78305705925376]
ブラインド・フェイス・インペインティング(ブラインド・フェイス・インペインティング)とは、顔画像の劣化した領域を明確に示さずに、視覚コンテンツを再構築する作業である。
本稿では、これらの課題に対処するために、周波数誘導変換器とTop-Down Refinement Network(FT-TDR)と呼ばれる新しい2段階ブラインドフェイス塗装法を提案する。
論文 参考訳(メタデータ) (2021-08-10T03:12:01Z) - Image Inpainting with Edge-guided Learnable Bidirectional Attention Maps [85.67745220834718]
不規則な穴の画像インペインティングを改善するためのエッジガイド学習可能な双方向注意マップ(Edge-LBAM)を紹介します。
当社のEdge-LBAMメソッドには、予測エッジによる構造認識マスク更新を含むデュアルプロシージャが含まれています。
広範な実験により,エッジlbamはコヒーレントな画像構造を生成し,色差やぼやけを防止できることがわかった。
論文 参考訳(メタデータ) (2021-04-25T07:25:16Z) - Deep Generative Model for Image Inpainting with Local Binary Pattern
Learning and Spatial Attention [28.807711307545112]
本稿では,LBP学習ネットワークと実際の塗布ネットワークを組み合わせることで,エンド・ツー・エンドの2段階(粗い)生成モデルを提案する。
CelebA-HQ、Places、Paris StreetViewといった公開データセットの実験では、我々のモデルは最先端の競合するアルゴリズムよりも優れた塗装結果を生成する。
論文 参考訳(メタデータ) (2020-09-02T12:59:28Z) - Enhanced Residual Networks for Context-based Image Outpainting [0.0]
深いモデルは、保持された情報を通してコンテキストや外挿を理解するのに苦労する。
現在のモデルでは、生成的敵ネットワークを使用して、局所的な画像特徴の整合性が欠如し、偽のように見える結果を生成する。
本稿では,局所的・大域的判別器の使用と,ネットワークの符号化部における残差ブロックの追加という,この問題を改善するための2つの方法を提案する。
論文 参考訳(メタデータ) (2020-05-14T05:14:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。