論文の概要: N\"UWA-LIP: Language Guided Image Inpainting with Defect-free VQGAN
- arxiv url: http://arxiv.org/abs/2202.05009v1
- Date: Thu, 10 Feb 2022 13:10:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-11 15:55:07.524965
- Title: N\"UWA-LIP: Language Guided Image Inpainting with Defect-free VQGAN
- Title(参考訳): N\ "UWA-LIP": 欠陥のないVQGANによる言語ガイド画像の塗布
- Authors: Minheng Ni, Chenfei Wu, Haoyang Huang, Daxin Jiang, Wangmeng Zuo, Nan
Duan
- Abstract要約: 本稿では,欠陥のないVQGANとマルチパースペクティブシーケンス(MP-S2S)を組み合わせたN"UWA-LIPを提案する。
特に、DF-VQGANは、受容拡散を制御する相対推定を導入し、情報を保護するために対称接続を採用する。
MP-S2Sは、低レベル画素と高レベルトークンの両方を含む相補的な視点から視覚情報を強化する。
- 参考スコア(独自算出の注目度): 130.84343735976233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language guided image inpainting aims to fill in the defective regions of an
image under the guidance of text while keeping non-defective regions unchanged.
However, the encoding process of existing models suffers from either receptive
spreading of defective regions or information loss of non-defective regions,
giving rise to visually unappealing inpainting results. To address the above
issues, this paper proposes N\"UWA-LIP by incorporating defect-free VQGAN
(DF-VQGAN) with multi-perspective sequence to sequence (MP-S2S). In particular,
DF-VQGAN introduces relative estimation to control receptive spreading and
adopts symmetrical connections to protect information. MP-S2S further enhances
visual information from complementary perspectives, including both low-level
pixels and high-level tokens. Experiments show that DF-VQGAN performs more
robustness than VQGAN. To evaluate the inpainting performance of our model, we
built up 3 open-domain benchmarks, where N\"UWA-LIP is also superior to recent
strong baselines.
- Abstract(参考訳): 言語ガイド画像の塗装は、非欠陥領域を一定に保ちながら、テキストの指導の下で画像の欠陥領域を埋めることを目的としている。
しかし、既存のモデルの符号化プロセスは、欠陥領域の受容的拡散または非欠陥領域の情報損失のいずれかに悩まされ、視覚的に不適合な塗装結果をもたらす。
本稿では,欠陥のないVQGAN (DF-VQGAN) とマルチパースペクティブシーケンス (MP-S2S) を組み合わせたN\"UWA-LIPを提案する。
特に、DF-VQGANは、受容拡散を制御する相対推定を導入し、情報を保護するために対称接続を採用する。
MP-S2Sは、低レベル画素と高レベルトークンの両方を含む相補的な視点から視覚情報を強化する。
実験により、DF-VQGANはVQGANよりも頑丈であることが示された。
モデルの性能を評価するために,N\"UWA-LIPは最近の強力なベースラインよりも優れている3つのオープンベンチマークを構築した。
関連論文リスト
- Boundary Attention Constrained Zero-Shot Layout-To-Image Generation [47.435234391588494]
近年のテキスト・画像拡散モデルでは,テキストからの高解像度画像の生成に優れるが,空間構成や物体数に対する精密な制御に苦慮している。
本稿では,新たなゼロショットL2IアプローチであるBACONを提案する。
自己アテンション特徴写像の画素間相関を利用して、交差アテンション写像を整列し、境界注意で制約された3つの損失関数を組み合わせ、潜時特徴を更新する。
論文 参考訳(メタデータ) (2024-11-15T05:44:45Z) - DAFT-GAN: Dual Affine Transformation Generative Adversarial Network for Text-Guided Image Inpainting [2.656795553429629]
そこで本研究では,2つのアフィン変換生成逆数ネットワーク(DAFT-GAN)を提案する。
提案手法は, 定性評価と定量的評価の両方において, 既存のGANモデルよりも優れている。
論文 参考訳(メタデータ) (2024-08-09T09:28:42Z) - Gaussian Splatting with Localized Points Management [52.009874685460694]
局所的点管理(LPM)は、点加算と幾何校正の双方の最も高い需要において、これらの誤り貢献ゾーンを特定することができる。
LPMは特定ゾーンに点密度を適用し、これらの領域の前に位置する点の不透明度をリセットし、不条件点を補正する新たな機会を創出する。
特に、LPMはバニラ3DGSとSpaceTimeGSの両方を改善して、リアルタイム速度を維持しながら最先端のレンダリング品質を実現している。
論文 参考訳(メタデータ) (2024-06-06T16:55:07Z) - PUGAN: Physical Model-Guided Underwater Image Enhancement Using GAN with
Dual-Discriminators [120.06891448820447]
鮮明で視覚的に快適な画像を得る方法は、人々の共通の関心事となっている。
水中画像強調(UIE)の課題も、時間とともに現れた。
本稿では,UIE のための物理モデル誘導型 GAN モデルを提案する。
我々のPUGANは質的および定量的な測定値において最先端の手法より優れています。
論文 参考訳(メタデータ) (2023-06-15T07:41:12Z) - Panini-Net: GAN Prior Based Degradation-Aware Feature Interpolation for
Face Restoration [4.244692655670362]
Panini-Netは、顔修復のための劣化認識機能ネットワークである。
抽象表現を学び、様々な劣化を区別する。
マルチ劣化顔復元と超解像のための最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-16T07:41:07Z) - Image Inpainting by End-to-End Cascaded Refinement with Mask Awareness [66.55719330810547]
任意の欠落領域を塗りつぶすことは、様々なマスクされた領域で有効な特徴を学ぶことは非自明だから難しい。
符号化フェーズにおける欠落領域のマルチスケール特徴を学習する新しいマスク対応インペイントソリューションを提案する。
私たちのフレームワークは、3つの公開データセットに関する広範な実験を通じて定量的および定性的に検証されます。
論文 参考訳(メタデータ) (2021-04-28T13:17:47Z) - Image Inpainting with Edge-guided Learnable Bidirectional Attention Maps [85.67745220834718]
不規則な穴の画像インペインティングを改善するためのエッジガイド学習可能な双方向注意マップ(Edge-LBAM)を紹介します。
当社のEdge-LBAMメソッドには、予測エッジによる構造認識マスク更新を含むデュアルプロシージャが含まれています。
広範な実験により,エッジlbamはコヒーレントな画像構造を生成し,色差やぼやけを防止できることがわかった。
論文 参考訳(メタデータ) (2021-04-25T07:25:16Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z) - Image Inpainting with Learnable Feature Imputation [8.293345261434943]
正規畳み込み層は、未知の領域にフィルターを適用するのと同じ方法で、塗装された画像の視覚的アーティファクトを引き起こす。
本稿では,欠落した入力値の畳み込みに対する(階層的な)特徴計算を提案する。
我々はCelebA-HQとPlaces2を比較し,そのモデルを検証する。
論文 参考訳(メタデータ) (2020-11-02T16:05:32Z) - Enhanced Residual Networks for Context-based Image Outpainting [0.0]
深いモデルは、保持された情報を通してコンテキストや外挿を理解するのに苦労する。
現在のモデルでは、生成的敵ネットワークを使用して、局所的な画像特徴の整合性が欠如し、偽のように見える結果を生成する。
本稿では,局所的・大域的判別器の使用と,ネットワークの符号化部における残差ブロックの追加という,この問題を改善するための2つの方法を提案する。
論文 参考訳(メタデータ) (2020-05-14T05:14:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。