論文の概要: Distance-based Weighted Transformer Network for Image Completion
- arxiv url: http://arxiv.org/abs/2310.07440v1
- Date: Wed, 11 Oct 2023 12:46:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 22:53:26.652616
- Title: Distance-based Weighted Transformer Network for Image Completion
- Title(参考訳): 画像補完のための距離重み付きトランスネットワーク
- Authors: Pourya Shamsolmoali, Masoumeh Zareapoor, Huiyu Zhou, Xuelong Li, and
Yue Lu
- Abstract要約: 本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
- 参考スコア(独自算出の注目度): 52.318730994423106
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The challenge of image generation has been effectively modeled as a problem
of structure priors or transformation. However, existing models have
unsatisfactory performance in understanding the global input image structures
because of particular inherent features (for example, local inductive prior).
Recent studies have shown that self-attention is an efficient modeling
technique for image completion problems. In this paper, we propose a new
architecture that relies on Distance-based Weighted Transformer (DWT) to better
understand the relationships between an image's components. In our model, we
leverage the strengths of both Convolutional Neural Networks (CNNs) and DWT
blocks to enhance the image completion process. Specifically, CNNs are used to
augment the local texture information of coarse priors and DWT blocks are used
to recover certain coarse textures and coherent visual structures. Unlike
current approaches that generally use CNNs to create feature maps, we use the
DWT to encode global dependencies and compute distance-based weighted feature
maps, which substantially minimizes the problem of visual ambiguities.
Meanwhile, to better produce repeated textures, we introduce Residual Fast
Fourier Convolution (Res-FFC) blocks to combine the encoder's skip features
with the coarse features provided by our generator. Furthermore, a simple yet
effective technique is proposed to normalize the non-zero values of
convolutions, and fine-tune the network layers for regularization of the
gradient norms to provide an efficient training stabiliser. Extensive
quantitative and qualitative experiments on three challenging datasets
demonstrate the superiority of our proposed model compared to existing
approaches.
- Abstract(参考訳): 画像生成の課題は、構造優先問題や変換問題として効果的にモデル化されてきた。
しかしながら、既存のモデルは、特定の固有の特徴(例えば局所帰納的事前)のため、グローバルな入力画像構造を理解するのに不十分な性能を持っている。
近年の研究では、自己着脱が画像補完問題の効率的なモデリング手法であることが示されている。
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
私たちのモデルでは、畳み込みニューラルネットワーク(cnns)とdwtブロックの両方の強みを利用して、画像補完プロセスを強化しています。
特に、cnnは粗い事前の局所的なテクスチャ情報を強化するために使用され、dwtブロックは特定の粗いテクスチャとコヒーレントな視覚構造を回復するために使用される。
CNNを使って機能マップを作成する現在のアプローチとは異なり、我々はDWTを使ってグローバルな依存関係をエンコードし、距離に基づく重み付けされた特徴マップを計算する。
一方, 繰り返しテクスチャをよりよく作成するために, エンコーダのスキップ特徴と生成器が提供する粗い特徴を組み合わせるために, 残差高速フーリエ畳み込み(res-ffc)ブロックを導入する。
さらに,畳み込みの非ゼロ値の正規化と,勾配ノルムの正規化のためのネットワーク層を微調整し,効率的なトレーニングスタビリザーを実現するための簡易かつ効果的な手法を提案する。
3つの挑戦的なデータセットに対する大規模な定量的および定性的実験は、既存のアプローチと比較して提案モデルが優れていることを示す。
関連論文リスト
- Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - WavePaint: Resource-efficient Token-mixer for Self-supervised Inpainting [2.3014300466616078]
本稿では、計算効率の良いWaveMixベースの完全畳み込みアーキテクチャであるWavePaintを用いて、視覚変換器から分岐する。
2次元離散ウェーブレット変換(DWT)を用いて、畳み込み層とともに、空間的および多重解像度のトークン混合を行う。
我々のモデルは、CelebA-HQデータセットの現在のGANアーキテクチャよりも優れている。
論文 参考訳(メタデータ) (2023-07-01T18:41:34Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - TcGAN: Semantic-Aware and Structure-Preserved GANs with Individual
Vision Transformer for Fast Arbitrary One-Shot Image Generation [11.207512995742999]
画像の内部パッチから学習する生成的敵ネットワークを持つワンショット画像生成(OSG)は、世界中で注目を集めている。
本稿では,既存のワンショット画像生成手法の欠点を克服するために,個々の視覚変換器を用いた構造保存方式TcGANを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:05:59Z) - DELAD: Deep Landweber-guided deconvolution with Hessian and sparse prior [0.22940141855172028]
本稿では,古典的反復法をディープラーニングアプリケーションに組み込んだ非盲検画像デコンボリューションモデルを提案する。
このアルゴリズムは、トレーニング可能な畳み込み層と統合され、復元された画像構造と詳細を強化する。
論文 参考訳(メタデータ) (2022-09-30T11:15:03Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - SDWNet: A Straight Dilated Network with Wavelet Transformation for Image
Deblurring [23.86692375792203]
画像劣化は、ぼやけた画像から鋭い画像を復元することを目的としたコンピュータビジョンの問題である。
我々のモデルは拡張畳み込みを用いて空間分解能の高い大きな受容場を得ることができる。
本稿では,ウェーブレット変換を用いた新しいモジュールを提案する。
論文 参考訳(メタデータ) (2021-10-12T07:58:10Z) - Efficient and Model-Based Infrared and Visible Image Fusion Via
Algorithm Unrolling [24.83209572888164]
赤外線および可視画像融合(IVIF)は、赤外線画像からの熱放射情報を保持する画像と、可視画像からテクスチャの詳細を取得することを期待している。
従来のCNNベースのIVIFモデルの欠点を克服するために,モデルベース畳み込みニューラルネットワーク(CNN)モデルを提案する。
論文 参考訳(メタデータ) (2020-05-12T16:15:56Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。