論文の概要: High-Fidelity Pluralistic Image Completion with Transformers
- arxiv url: http://arxiv.org/abs/2103.14031v1
- Date: Thu, 25 Mar 2021 17:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-26 13:24:48.690795
- Title: High-Fidelity Pluralistic Image Completion with Transformers
- Title(参考訳): トランスフォーマーを用いた高忠実度多元性画像補完
- Authors: Ziyu Wan and Jingbo Zhang and Dongdong Chen and Jing Liao
- Abstract要約: 本稿では, トランスフォーマーによる外観先行復元とcnnによるテクスチャ補足という多元的画像補完に, 両世界のベストをもたらす。
提案手法は3つの観点で最先端の手法を大幅に上回る。
- 参考スコア(独自算出の注目度): 23.563949855476608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image completion has made tremendous progress with convolutional neural
networks (CNNs), because of their powerful texture modeling capacity. However,
due to some inherent properties (e.g., local inductive prior, spatial-invariant
kernels), CNNs do not perform well in understanding global structures or
naturally support pluralistic completion. Recently, transformers demonstrate
their power in modeling the long-term relationship and generating diverse
results, but their computation complexity is quadratic to input length, thus
hampering the application in processing high-resolution images. This paper
brings the best of both worlds to pluralistic image completion: appearance
prior reconstruction with transformer and texture replenishment with CNN. The
former transformer recovers pluralistic coherent structures together with some
coarse textures, while the latter CNN enhances the local texture details of
coarse priors guided by the high-resolution masked images. The proposed method
vastly outperforms state-of-the-art methods in terms of three aspects: 1) large
performance boost on image fidelity even compared to deterministic completion
methods; 2) better diversity and higher fidelity for pluralistic completion; 3)
exceptional generalization ability on large masks and generic dataset, like
ImageNet.
- Abstract(参考訳): 画像補完は、強力なテクスチャモデリング能力のため、畳み込みニューラルネットワーク(CNN)で大幅に進歩した。
しかし、いくつかの固有の性質(例えば、局所帰納前、空間不変カーネルなど)のため、CNNはグローバル構造を理解したり、多元的完備化を自然にサポートしない。
近年、変換器は長期的な関係をモデル化し、様々な結果を生成する能力を示しているが、計算の複雑さは入力長に2次的であるため、高解像度画像処理の応用を妨げている。
本稿では, トランスフォーマーによる外観先行復元とcnnによるテクスチャ補足という多元的画像補完に, 両世界のベストをもたらす。
前者は粗いテクスチャとともに多元的コヒーレント構造を復元し、後者のCNNは高分解能マスク画像によって導かれる粗い前の局所的なテクスチャの詳細を強化する。
提案手法は,(1)決定論的補完法と比較して画像忠実度が大幅に向上する,2)多元的補完に対する多様性と高い忠実度,3)大規模マスクと汎用データセットに対する例外的な一般化能力,の3つの点で最先端手法を大きく上回っている。
関連論文リスト
- Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - CompletionFormer: Depth Completion with Convolutions and Vision
Transformers [0.0]
本稿では、ピラミッド構造における深度補完モデルを構築するための基本単位として、畳み込み注意層と視覚変換器を1つのブロックに深く結合したJCAT(Joint Convolutional Attention and Transformer Block)を提案する。
我々のCompletionFormerは、屋外のKITTIDepth Completionベンチマークと屋内のNYUv2データセットで最先端のCNNベースの手法より優れており、純粋なTransformerベースの手法に比べてはるかに高い効率(約1/3FLOPs)を実現しています。
論文 参考訳(メタデータ) (2023-04-25T17:59:47Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Diverse Image Inpainting with Bidirectional and Autoregressive
Transformers [55.21000775547243]
新規な双方向自己回帰トランス(BAT)を用いた画像インペインティングフレームワークBAT-Fillを提案する。
BAT-Fillは変換器とCNNの利点を2段階的に継承し、変換器の注意の二次的複雑さに制約されることなく高解像度のコンテンツを生成する。
論文 参考訳(メタデータ) (2021-04-26T03:52:27Z) - Spatially-Adaptive Pixelwise Networks for Fast Image Translation [57.359250882770525]
高速かつ効率的な画像-画像変換を目的とした新しいジェネレータアーキテクチャを提案する。
私たちはピクセルワイズネットワークを使用します。つまり、各ピクセルは他のピクセルとは独立して処理されます。
私たちのモデルは最先端のベースラインよりも最大18倍高速です。
論文 参考訳(メタデータ) (2020-12-05T10:02:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。