論文の概要: Outpainting by Queries
- arxiv url: http://arxiv.org/abs/2207.05312v1
- Date: Tue, 12 Jul 2022 04:48:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 14:08:53.068867
- Title: Outpainting by Queries
- Title(参考訳): クエリーによるオーバーペイント
- Authors: Kai Yao, Penglei Gao, Xi Yang, Kaizhu Huang, Jie Sun, and Rui Zhang
- Abstract要約: 我々は、textbfQuery textbfOutpainting textbfTRansformer (textbfQueryOTR) という、新しいハイブリッドビジョントランスフォーマーベースのエンコーダデコーダフレームワークを提案する。
我々は、QueryOTRが、最先端画像よりもスムーズかつ現実的に、視覚的に魅力的な結果を生成できることを実験的に示した。
- 参考スコア(独自算出の注目度): 23.626012684754965
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image outpainting, which is well studied with Convolution Neural Network
(CNN) based framework, has recently drawn more attention in computer vision.
However, CNNs rely on inherent inductive biases to achieve effective sample
learning, which may degrade the performance ceiling. In this paper, motivated
by the flexible self-attention mechanism with minimal inductive biases in
transformer architecture, we reframe the generalised image outpainting problem
as a patch-wise sequence-to-sequence autoregression problem, enabling
query-based image outpainting. Specifically, we propose a novel hybrid
vision-transformer-based encoder-decoder framework, named \textbf{Query}
\textbf{O}utpainting \textbf{TR}ansformer (\textbf{QueryOTR}), for
extrapolating visual context all-side around a given image. Patch-wise mode's
global modeling capacity allows us to extrapolate images from the attention
mechanism's query standpoint. A novel Query Expansion Module (QEM) is designed
to integrate information from the predicted queries based on the encoder's
output, hence accelerating the convergence of the pure transformer even with a
relatively small dataset. To further enhance connectivity between each patch,
the proposed Patch Smoothing Module (PSM) re-allocates and averages the
overlapped regions, thus providing seamless predicted images. We experimentally
show that QueryOTR could generate visually appealing results smoothly and
realistically against the state-of-the-art image outpainting approaches.
- Abstract(参考訳): 画像出力は、畳み込みニューラルネットワーク(CNN)ベースのフレームワークでよく研究されているが、最近コンピュータビジョンに注目が集まっている。
しかし、CNNは効果的なサンプル学習を実現するために固有の帰納バイアスに依存しており、性能天井を劣化させる可能性がある。
本稿では, トランスアーキテクチャにおいて最小の帰納バイアスを有するフレキシブル自己保持機構を動機として, 汎用画像出力問題をパッチワイドシーケンス・ツー・シーケンス自動回帰問題として再構成し, 問合せに基づく画像出力を実現する。
具体的には,視覚変換型エンコーダ-デコーダフレームワークである \textbf{query} \textbf{o}utpainting \textbf{tr}ansformer (\textbf{queryotr})を提案する。
パッチワイズモードのグローバルモデリング能力は、注意機構のクエリの観点からイメージを外挿することができる。
新しいクエリ拡張モジュール(qem)は、エンコーダの出力に基づいて予測されたクエリからの情報を統合するように設計されているため、比較的小さなデータセットでも純粋なトランスフォーマの収束が加速される。
各パッチ間の接続をさらに強化するため、提案するパッチ平滑化モジュール(psm)は、重複領域を再配置し平均化することにより、シームレスな予測画像を提供する。
我々は、QueryOTRが、最先端画像よりもスムーズかつ現実的に、視覚的に魅力的な結果を生成できることを実験的に示した。
関連論文リスト
- Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - WavePaint: Resource-efficient Token-mixer for Self-supervised Inpainting [2.3014300466616078]
本稿では、計算効率の良いWaveMixベースの完全畳み込みアーキテクチャであるWavePaintを用いて、視覚変換器から分岐する。
2次元離散ウェーブレット変換(DWT)を用いて、畳み込み層とともに、空間的および多重解像度のトークン混合を行う。
我々のモデルは、CelebA-HQデータセットの現在のGANアーキテクチャよりも優れている。
論文 参考訳(メタデータ) (2023-07-01T18:41:34Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - High-Fidelity Image Inpainting with GAN Inversion [23.49170140410603]
本稿では,InvertFillと呼ばれる画像インペイントのための新しいGANインバージョンモデルを提案する。
エンコーダ内では、事前変調ネットワークがマルチスケール構造を利用して、より差別的なセマンティクスをスタイルベクトルにエンコードする。
忠実でフォトリアリスティックなイメージを再構築するために、シンプルだが効果的なSoft-update Mean Latentモジュールは、大規模な腐敗のために高忠実なテクスチャを合成する、より多様なドメイン内パターンをキャプチャするように設計されている。
論文 参考訳(メタデータ) (2022-08-25T03:39:24Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - The Devil Is in the Details: Window-based Attention for Image
Compression [58.1577742463617]
既存の学習画像圧縮モデルは畳み込みニューラルネットワーク(CNN)に基づいている。
本稿では,複数種類の注意機構が局所特徴学習に与える影響について検討し,より単純で効果的なウィンドウベースの局所的注意ブロックを提案する。
提案されたウィンドウベースのアテンションは非常に柔軟で、CNNとTransformerモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-03-16T07:55:49Z) - Generalised Image Outpainting with U-Transformer [19.894445491176878]
我々は,U-Transformerと呼ばれる,新しい変換器ベースの生成対向ネットワークを開発した。
具体的には、一般的なSwin Transformerブロックに埋め込まれたエンコーダ-デコーダ構造としてジェネレータを設計する。
提案手法は,一般化された画像の露光に対して,視覚的に魅力的な結果が得られることを実験的に実証した。
論文 参考訳(メタデータ) (2022-01-27T09:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。