論文の概要: Generative Memory-Guided Semantic Reasoning Model for Image Inpainting
- arxiv url: http://arxiv.org/abs/2110.00261v1
- Date: Fri, 1 Oct 2021 08:37:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-04 14:35:48.009867
- Title: Generative Memory-Guided Semantic Reasoning Model for Image Inpainting
- Title(参考訳): 画像インパインティングのための生成記憶誘導意味推論モデル
- Authors: Xin Feng, Wenjie Pei, Fengjun Li, Fanglin Chen, David Zhang, and
Guangming Lu
- Abstract要約: 画像インペイントのための生成記憶誘導セマンティック推論モデル(GM-SRM)を提案する。
提案したGM-SRMは、既知の領域から画像内前駆体を学習すると同時に、画像間推論前駆体を蒸留し、劣化した領域の含有量を推定する。
Paris Street View、CelebA-HQ、Places2ベンチマークの大規模な実験は、GM-SRMが画像インペイントの最先端手法よりも優れていることを示している。
- 参考スコア(独自算出の注目度): 34.092255842494396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing methods for image inpainting focus on learning the intra-image
priors from the known regions of the current input image to infer the content
of the corrupted regions in the same image. While such methods perform well on
images with small corrupted regions, it is challenging for these methods to
deal with images with large corrupted area due to two potential limitations: 1)
such methods tend to overfit each single training pair of images relying solely
on the intra-image prior knowledge learned from the limited known area; 2) the
inter-image prior knowledge about the general distribution patterns of visual
semantics, which can be transferred across images sharing similar semantics, is
not exploited. In this paper, we propose the Generative Memory-Guided Semantic
Reasoning Model (GM-SRM), which not only learns the intra-image priors from the
known regions, but also distills the inter-image reasoning priors to infer the
content of the corrupted regions. In particular, the proposed GM-SRM first
pre-learns a generative memory from the whole training data to capture the
semantic distribution patterns in a global view. Then the learned memory are
leveraged to retrieve the matching inter-image priors for the current corrupted
image to perform semantic reasoning during image inpainting. While the
intra-image priors are used for guaranteeing the pixel-level content
consistency, the inter-image priors are favorable for performing high-level
semantic reasoning, which is particularly effective for inferring semantic
content for large corrupted area. Extensive experiments on Paris Street View,
CelebA-HQ, and Places2 benchmarks demonstrate that our GM-SRM outperforms the
state-of-the-art methods for image inpainting in terms of both the visual
quality and quantitative metrics.
- Abstract(参考訳): 既存の画像インパインティング手法は、現在の入力画像の既知領域から画像内先行領域を学習して、同じ画像内の劣化領域の内容を推測することに焦点を当てている。
このような手法は, 破損領域が小さい画像ではうまく機能するが, 2つの限界があるため, 破損領域が大きい画像を扱うことは困難である。
1)これらの方法は,限られた既知領域から学習した画像内知識のみに頼って,各訓練画像に過度に適合する傾向にある。
2)視覚意味論の一般分布パターンに関する画像間事前知識は、類似意味論を共有する画像間で転送可能であり、悪用されない。
本稿では,画像内プリエントを既知領域から学習するだけでなく,画像間推論プリエントを蒸留して劣化領域の内容を推定する生成記憶誘導意味推論モデル(gm-srm)を提案する。
特に、提案したGM-SRMは、まず、トレーニングデータ全体から生成メモリを事前学習し、グローバルビューで意味分布パターンをキャプチャする。
そして、学習メモリを利用して、現在の劣化画像のマッチング画像間先行情報を検索し、画像の塗布中に意味推論を行う。
画像内プリミティブは画素レベルのコンテンツ一貫性を保証するために使用されるが、画像間プリミティブは高レベルな意味推論を行うのに好適であり、これは大きな破損領域に対する意味的コンテンツの推測に特に有効である。
paris street view、celeba-hq、places2のベンチマークでの広範な実験により、gm-srmは、視覚品質と定量的指標の両方において、画像インペインティングの最先端の手法よりも優れています。
関連論文リスト
- Realistic Extreme Image Rescaling via Generative Latent Space Learning [51.85790402171696]
極端画像再スケーリングのためのLatent Space Based Image Rescaling (LSBIR) という新しいフレームワークを提案する。
LSBIRは、訓練済みのテキスト-画像拡散モデルによって学習された強力な自然画像の先行を効果的に活用し、リアルなHR画像を生成する。
第1段階では、擬似非可逆エンコーダデコーダは、HR画像の潜在特徴とターゲットサイズのLR画像との双方向マッピングをモデル化する。
第2段階では、第1段階からの再構成された特徴を事前訓練された拡散モデルにより洗練し、より忠実で視覚的に喜ぶ詳細を生成する。
論文 参考訳(メタデータ) (2024-08-17T09:51:42Z) - Enhancing Image Layout Control with Loss-Guided Diffusion Models [0.0]
拡散モデルは単純なテキストプロンプトを用いて純粋なノイズから高品質な画像を生成する。
これらの手法のサブセットは、モデルの注意機構を利用しており、トレーニングフリーである。
本稿では,これらの手法を補完的な特徴を強調した解釈を行い,両手法がコンサートで使用される場合,優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-05-23T02:08:44Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Improving Generalization of Image Captioning with Unsupervised Prompt
Learning [63.26197177542422]
画像キャプションの一般化(GeneIC)は、アノテーション付きデータを必要とせずに、ターゲットドメインのドメイン固有のプロンプトベクトルを学習する。
GeneICは、学習済みのContrastive Language-Image Pre-Training (CLIP)モデルと視覚的および言語的モダリティを一致させる。
論文 参考訳(メタデータ) (2023-08-05T12:27:01Z) - Boosting Image Outpainting with Semantic Layout Prediction [18.819765707811904]
我々は、画像ドメインの代わりにセマンティックセグメンテーションドメイン内の領域を拡張するために、GANを訓練する。
別のGANモデルは、拡張されたセマンティックレイアウトに基づいて実際の画像を合成するように訓練されている。
我々のアプローチは意味的な手がかりをより容易に扱えるので、複雑なシナリオではよりうまく機能します。
論文 参考訳(メタデータ) (2021-10-18T13:09:31Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z) - Rethinking of the Image Salient Object Detection: Object-level Semantic
Saliency Re-ranking First, Pixel-wise Saliency Refinement Latter [62.26677215668959]
本稿では,意味的に有意な領域を粗い位置で特定する,軽量で教師付きの深層ネットワークを提案する。
次に,これらセマンティック・サリエント領域の深層モデルを画素ワイド・サリエンシ改善として融合する。
提案手法は単純だが有効であり,本手法は主眼をオブジェクトレベルのセマンティック・リグレード問題とみなすための最初の試みである。
論文 参考訳(メタデータ) (2020-08-10T07:12:43Z) - Arbitrary-sized Image Training and Residual Kernel Learning: Towards
Image Fraud Identification [10.47223719403823]
そこで本研究では,原入力尺度の画像の縮小を伴わずにトレーニングを行うフレームワークを提案する。
任意の大きさの画像トレーニング方法は、擬似バッチ勾配勾配に依存する。
学習した残余カーネルとPBGDにより,提案手法は画像不正識別における最先端の結果を達成した。
論文 参考訳(メタデータ) (2020-05-22T07:57:24Z) - Enhanced Residual Networks for Context-based Image Outpainting [0.0]
深いモデルは、保持された情報を通してコンテキストや外挿を理解するのに苦労する。
現在のモデルでは、生成的敵ネットワークを使用して、局所的な画像特徴の整合性が欠如し、偽のように見える結果を生成する。
本稿では,局所的・大域的判別器の使用と,ネットワークの符号化部における残差ブロックの追加という,この問題を改善するための2つの方法を提案する。
論文 参考訳(メタデータ) (2020-05-14T05:14:26Z) - Exploiting Deep Generative Prior for Versatile Image Restoration and
Manipulation [181.08127307338654]
本研究は, 大規模自然画像に基づいて学習したGAN(Generative Adversarial Network)により, 得られた画像の有効利用方法を示す。
深層生成前駆体(DGP)は、色、パッチ、解像度、様々な劣化した画像の欠落したセマンティクスを復元するための説得力のある結果を提供する。
論文 参考訳(メタデータ) (2020-03-30T17:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。