論文の概要: S2WAT: Image Style Transfer via Hierarchical Vision Transformer using
Strips Window Attention
- arxiv url: http://arxiv.org/abs/2210.12381v1
- Date: Sat, 22 Oct 2022 07:56:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 17:22:05.789882
- Title: S2WAT: Image Style Transfer via Hierarchical Vision Transformer using
Strips Window Attention
- Title(参考訳): S2WAT:ストリップウィンドウアテンションを用いた階層型視覚変換器による画像スタイル転送
- Authors: Chiyu Zhang, Jun Yang, Lei Wang, Zaiyan Dai
- Abstract要約: 本稿では、Strips Window Attention Transformer (S2WAT) と呼ばれる画像スタイル転送のための新しい階層型視覚変換器を提案する。
階層的特徴により、S2WATは、機能ピラミッドネットワーク(FPN)やU-Netなど、コンピュータビジョンの他の分野における実証された技術を活用することができる。
S2WATは最先端のCNNベース、フローベース、トランスフォーマーベースのアプローチで同等のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 6.535073370751269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a new hierarchical vision Transformer for image style
transfer, called Strips Window Attention Transformer (S2WAT), which serves as
an encoder of encoder-transfer-decoder architecture. With hierarchical
features, S2WAT can leverage proven techniques in other fields of computer
vision, such as feature pyramid networks (FPN) or U-Net, to image style
transfer in future works. However, the existing window-based Transformers will
cause a problem that the stylized images will be grid-like when introducing
them into image style transfer directly. To solve this problem, we propose
S2WAT whose representation is computed with Strips Window Attention (SpW
Attention). The SpW Attention can integrate both local information and
long-range dependencies in horizontal and vertical directions by a novel
feature fusion scheme named Attn Merge. Moreover, previous window-based
Transformers require that the resolution of features needs to be divisible by
window size which limits the inputs of arbitrary size. In this paper, we take
advantages of padding & un-padding operations to make S2WAT support inputs of
arbitrary size. Qualitative and quantitative experiments demonstrate that S2WAT
achieves comparable performance of state-of-the-art CNN-based, Flow-based and
Transformer-based approaches.
- Abstract(参考訳): 本稿では、エンコーダ-トランス-デコーダアーキテクチャのエンコーダとして機能するStrips Window Attention Transformer (S2WAT) と呼ばれる、画像スタイル転送のための新しい階層型視覚変換器を提案する。
階層的特徴により、S2WATは、機能ピラミッドネットワーク(FPN)やU-Netなど、コンピュータビジョンの他の分野で実証された技術を利用して、将来の作業におけるイメージスタイルの転送を行うことができる。
しかし、既存のウィンドウベースのトランスフォーマーは、画像スタイル変換に直接導入する場合、スタイリッシュな画像がグリッド状になるという問題を引き起こす。
この問題を解決するために,Strips Window Attention (SpW Attention)を用いて表現を計算したS2WATを提案する。
SpW Attentionは、Attn Mergeという新しい特徴融合スキームによって、水平方向と垂直方向の局所情報と長距離依存の両方を統合することができる。
さらに、以前のウィンドウベースのトランスフォーマーでは、任意のサイズの入力を制限するウィンドウサイズによって特徴の解像度を分割する必要がある。
本稿では,任意の大きさのS2WAT入力を実現するために,パディングおよびアンパディング操作の利点を生かした。
定性的かつ定量的な実験により、S2WATは最先端のCNNベース、フローベース、トランスフォーマーベースのアプローチの同等のパフォーマンスを達成している。
関連論文リスト
- Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - Dual Aggregation Transformer for Image Super-Resolution [92.41781921611646]
画像SRのための新しいトランスモデルDual Aggregation Transformerを提案する。
DATは、ブロック間およびブロック内二重方式で、空間次元とチャネル次元にまたがる特徴を集約する。
我々のDATは現在の手法を超越している。
論文 参考訳(メタデータ) (2023-08-07T07:39:39Z) - Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - Dual-path Adaptation from Image to Video Transformers [62.056751480114784]
ViTやSwinのような視覚基盤モデルの超越する表現力を、トレーニング可能なパラメータ数だけでビデオ理解するために効率的に転送する。
本稿では,空間的および時間的適応経路に分離した新しいDualPath適応法を提案する。
論文 参考訳(メタデータ) (2023-03-17T09:37:07Z) - Transformers for End-to-End InfoSec Tasks: A Feasibility Study [6.847381178288385]
私たちは2つの異なるInfoSecデータフォーマット、特にURLとPEファイルに対してトランスフォーマーモデルを実装します。
URLトランスフォーマーモデルは、高いパフォーマンスレベルに達するためには、異なるトレーニングアプローチが必要です。
提案手法は,PEファイルのベンチマークデータセット上で,確立されたマルウェア検出モデルに相容れない性能を示す。
論文 参考訳(メタデータ) (2022-12-05T23:50:46Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。