論文の概要: Diverse Image Inpainting with Bidirectional and Autoregressive
Transformers
- arxiv url: http://arxiv.org/abs/2104.12335v1
- Date: Mon, 26 Apr 2021 03:52:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 14:35:40.938585
- Title: Diverse Image Inpainting with Bidirectional and Autoregressive
Transformers
- Title(参考訳): 双方向・自己回帰変換器を用いた多面的画像描画
- Authors: Yingchen Yu, Fangneng Zhan, Rongliang Wu, Jianxiong Pan, Kaiwen Cui,
Shijian Lu, Feiying Ma, Xuansong Xie, Chunyan Miao
- Abstract要約: 新規な双方向自己回帰トランス(BAT)を用いた画像インペインティングフレームワークBAT-Fillを提案する。
BAT-Fillは変換器とCNNの利点を2段階的に継承し、変換器の注意の二次的複雑さに制約されることなく高解像度のコンテンツを生成する。
- 参考スコア(独自算出の注目度): 55.21000775547243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image inpainting is an underdetermined inverse problem, it naturally allows
diverse contents that fill up the missing or corrupted regions reasonably and
realistically. Prevalent approaches using convolutional neural networks (CNNs)
can synthesize visually pleasant contents, but CNNs suffer from limited
perception fields for capturing global features. With image-level attention,
transformers enable to model long-range dependencies and generate diverse
contents with autoregressive modeling of pixel-sequence distributions. However,
the unidirectional attention in transformers is suboptimal as corrupted regions
can have arbitrary shapes with contexts from arbitrary directions. We propose
BAT-Fill, an image inpainting framework with a novel bidirectional
autoregressive transformer (BAT) that models deep bidirectional contexts for
autoregressive generation of diverse inpainting contents. BAT-Fill inherits the
merits of transformers and CNNs in a two-stage manner, which allows to generate
high-resolution contents without being constrained by the quadratic complexity
of attention in transformers. Specifically, it first generates pluralistic
image structures of low resolution by adapting transformers and then
synthesizes realistic texture details of high resolutions with a CNN-based
up-sampling network. Extensive experiments over multiple datasets show that
BAT-Fill achieves superior diversity and fidelity in image inpainting
qualitatively and quantitatively.
- Abstract(参考訳): 画像の塗装は、不確定な逆問題であり、自然に、欠落した領域を合理的かつ現実的に埋める多様なコンテンツを許容する。
畳み込みニューラルネットワーク(CNN)を用いた一般的なアプローチは、視覚的に快適なコンテンツを合成することができるが、CNNは、グローバルな特徴を捉えるための限られた知覚領域に悩まされている。
画像レベルの注意によって、トランスフォーマーは長距離の依存関係をモデル化し、ピクセル列分布の自己回帰モデリングで多様なコンテンツを生成することができる。
しかしながら、変圧器における一方向の注意は、崩壊した領域が任意の方向からの文脈を持つ任意の形状を持つことができるため、準最適である。
本稿では,多種多様な塗り込みコンテンツの自己回帰生成のための深い双方向コンテキストをモデル化する,双方向自己回帰トランスフォーマ(bat)を備えた画像塗り込みフレームワークbat-fillを提案する。
BAT-Fillは変換器とCNNの利点を2段階的に継承し、変換器の注意の二次的複雑さに制約されることなく高解像度のコンテンツを生成する。
具体的には、まずトランスフォーマーを適用して低解像度の多元的画像構造を生成し、cnnベースのアップサンプリングネットワークで高解像度の現実的なテクスチャの詳細を合成する。
複数のデータセットに対する大規模な実験により、BAT-Fillは画像の質的および定量的な塗布において、優れた多様性と忠実性を達成することが示された。
関連論文リスト
- FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model [76.84519526283083]
textbfFlexible Vision Transformer (FiT) は、テキスト非制限解像度とアスペクト比で画像を生成するために設計されたトランスアーキテクチャである。
FiTv2は、高度なトレーニングフリーな外挿技術を導入する際に、FiTの収束速度を2倍に向上させる。
総合的な実験は、FiTv2の幅広い解像度での異常な性能を実証している。
論文 参考訳(メタデータ) (2024-10-17T15:51:49Z) - SwinStyleformer is a favorable choice for image inversion [2.8115030277940947]
本稿では,SwinStyleformerと呼ばれるトランスフォーマー構造インバージョンネットワークを提案する。
実験の結果、トランスフォーマーのバックボーンによるインバージョンネットワークは、画像の反転に成功しなかった。
論文 参考訳(メタデータ) (2024-06-19T02:08:45Z) - FiT: Flexible Vision Transformer for Diffusion Model [81.85667773832279]
本稿では,非制限解像度とアスペクト比で画像を生成するためのトランスフォーマーアーキテクチャを提案する。
静的解像度グリッドとしてイメージを認識する従来の方法とは異なり、FiTは動的サイズのトークンのシーケンスとしてイメージを概念化している。
総合的な実験は、幅広い解像度でFiTの異常な性能を実証している。
論文 参考訳(メタデータ) (2024-02-19T18:59:07Z) - Optimizing Vision Transformers for Medical Image Segmentation and
Few-Shot Domain Adaptation [11.690799827071606]
我々はCS-Unet(Convolutional Swin-Unet)トランスフォーマーブロックを提案し、パッチ埋め込み、プロジェクション、フィードフォワードネットワーク、サンプリングおよびスキップ接続に関連する設定を最適化する。
CS-Unetはゼロからトレーニングすることができ、各機能プロセスフェーズにおける畳み込みの優位性を継承する。
実験によると、CS-Unetは事前トレーニングなしで、パラメータが少ない2つの医療用CTおよびMRIデータセットに対して、最先端の他のデータセットを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2022-10-14T19:18:52Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Incorporating Convolution Designs into Visual Transformers [24.562955955312187]
我々は、低レベル特徴抽出におけるCNNの利点、局所性の向上、長距離依存の確立におけるトランスフォーマーの利点を組み合わせた新しいtextbfConvolution-enhanced image Transformer (CeiT) を提案する。
ImageNetと7つの下流タスクの実験結果は、大量のトレーニングデータや追加のCNN教師を必要とすることなく、従来のトランスフォーマーや最先端CNNと比較してCeiTの有効性と一般化能力を示している。
論文 参考訳(メタデータ) (2021-03-22T13:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。