論文の概要: Learning to Scale Temperature in Masked Self-Attention for Image
Inpainting
- arxiv url: http://arxiv.org/abs/2302.06130v1
- Date: Mon, 13 Feb 2023 06:37:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 16:23:41.758387
- Title: Learning to Scale Temperature in Masked Self-Attention for Image
Inpainting
- Title(参考訳): イメージインペインティングのためのマスクセルフアテンションにおける温度スケール学習
- Authors: Xiang Zhou, Yuan Zeng, Yi Gong
- Abstract要約: マルチヘッド温度マスキング自己保持機構を用いた画像塗布フレームワークを提案する。
描画結果の画質の向上に加えて,新しいスケッチ生成手法を導入してユーザガイド画像編集に一般化する。
- 参考スコア(独自算出の注目度): 11.52934596799707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in deep generative adversarial networks (GAN) and
self-attention mechanism have led to significant improvements in the
challenging task of inpainting large missing regions in an image. These methods
integrate self-attention mechanism in neural networks to utilize surrounding
neural elements based on their correlation and help the networks capture
long-range dependencies. Temperature is a parameter in the Softmax function
used in the self-attention, and it enables biasing the distribution of
attention scores towards a handful of similar patches. Most existing
self-attention mechanisms in image inpainting are convolution-based and set the
temperature as a constant, performing patch matching in a limited feature
space. In this work, we analyze the artifacts and training problems in previous
self-attention mechanisms, and redesign the temperature learning network as
well as the self-attention mechanism to address them. We present an image
inpainting framework with a multi-head temperature masked self-attention
mechanism, which provides stable and efficient temperature learning and uses
multiple distant contextual information for high quality image inpainting. In
addition to improving image quality of inpainting results, we generalize the
proposed model to user-guided image editing by introducing a new sketch
generation method. Extensive experiments on various datasets such as Paris
StreetView, CelebA-HQ and Places2 clearly demonstrate that our method not only
generates more natural inpainting results than previous works both in terms of
perception image quality and quantitative metrics, but also enables to help
users to generate more flexible results that are related to their sketch
guidance.
- Abstract(参考訳): 近年のGAN(Deep Generative Adversarial Network)と自己認識機構の進歩は,画像中の大きな欠損領域を塗布する課題において,大きな改善をもたらした。
これらの手法は、ニューラルネットワークに自己認識機構を統合し、その相関に基づいて周囲のニューラルネットワーク要素を利用する。
温度は自己注意に使用されるソフトマックス関数のパラメータであり、注意点の分布をいくつかの類似したパッチに偏らせることができる。
イメージインパインティングにおける既存の自己アテンション機構のほとんどは畳み込みベースであり、温度を一定に設定し、限られた特徴空間でパッチマッチングを行う。
本研究では,過去の自己認識機構のアーティファクトとトレーニング問題を解析し,温度学習ネットワークとそれに対応する自己認識機構を再設計する。
本稿では,多面体温度マスマスキング自己保持機構を組み,安定かつ効率的な温度学習を実現し,高品質な画像インペイントに複数のコンテキスト情報を利用する画像インパインティングフレームワークを提案する。
描画結果の画質の向上に加えて,新しいスケッチ生成手法を導入してユーザガイド画像編集に一般化する。
paris streetview、celeba-hq、places2といった様々なデータセットに関する広範囲な実験により、この方法は、イメージの知覚と定量的指標の両方において、以前の作品よりも自然なインペインティング結果を生成するだけでなく、スケッチガイダンスに関連するより柔軟な結果を生成することを可能にする。
関連論文リスト
- DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed
Dual-Branch Diffusion [61.90969199199739]
BrushNetは、ピクセルレベルのマスク付きイメージ機能を事前訓練されたDMに埋め込むために設計された、新しいプラグアンドプレイデュアルブランチモデルである。
BrushNetは、画像品質、マスク領域保存、テキストコヒーレンスを含む7つの主要な指標で、既存のモデルよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-11T17:59:31Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Learning Prior Feature and Attention Enhanced Image Inpainting [63.21231753407192]
本稿では,事前学習に基づくMasked AutoEncoder(MAE)を塗装モデルに組み込む。
マスク付き領域とマスキングされていない領域間の長距離依存性をより学習させるために,MAE の注意点を用いた手法を提案する。
論文 参考訳(メタデータ) (2022-08-03T04:32:53Z) - Interactive Image Inpainting Using Semantic Guidance [36.34615403590834]
本稿では,ユーザ自身の好みや記憶によってインペイント結果のカスタマイズを可能にする,新しい画像インペイント手法を提案する。
第1段階では、新規な空間的注意機構に基づくオートエンコーダを配置して、破損した画像の再構成特徴を生成する。
第2段階では、ユーザがカスタマイズしたセマンティックマスクによって導かれる微細な塗布結果を合成するために、予め再構成された特徴を取り入れたセマンティックデコーダが採用される。
論文 参考訳(メタデータ) (2022-01-26T05:09:42Z) - Restore from Restored: Single-image Inpainting [9.699531255678856]
インペイントネットワークのための,新しい,効率的な自己教師型微調整アルゴリズムを提案する。
既存の自己相似パッチを用いて,事前学習した塗装ネットワークのパラメータを更新する。
公開されているベンチマークデータセット上で、最先端の塗装結果を得る。
論文 参考訳(メタデータ) (2021-10-25T11:38:51Z) - Restore from Restored: Single-image Inpainting [9.699531255678856]
本論文では,絵画ネットワークにおける自己監督型微調整アルゴリズムについて述べる。
入力画像内の既存の自己相似パッチを利用して,事前学習したネットワークのパラメータをアップグレードする。
公開ベンチマークデータセットで最先端のインペインティング結果を達成します。
論文 参考訳(メタデータ) (2021-02-16T10:59:28Z) - Region-of-interest guided Supervoxel Inpainting for Self-supervision [8.744460886823322]
自己教師付き学習は、バイオメディカルイメージセグメンテーションで利用可能なすべてのデータを最大限に活用する上で有益であることが証明されている。
自己超越を達成するための特にシンプルで効果的なメカニズムは、画像の残りの部分に基づいて、任意の欠落した領域を予測する作業であるインペインティングである。
本稿では,ディープニューラルネットワークの性能を高めるために,新しい2つの構造変化を提案する。
提案手法は, 教師付きCNNにおいて, 自己スーパービジョンを伴わず, 従来型のインペインティングベースの自己スーパービジョン方式において, 大小のトレーニングセットサイズと小小のトレーニングセットサイズの両方において, 一貫して優れていたことを実証的に示す。
論文 参考訳(メタデータ) (2020-06-26T19:28:20Z) - Text-to-Image Generation with Attention Based Recurrent Neural Networks [1.2599533416395765]
我々は,安定なキャプションベース画像生成モデルを構築した。
実験はMicrosoftデータセット上で行われる。
その結果,提案手法は現代の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-01-18T12:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。