論文の概要: S2WAT: Image Style Transfer via Hierarchical Vision Transformer using
Strips Window Attention
- arxiv url: http://arxiv.org/abs/2210.12381v3
- Date: Fri, 15 Dec 2023 07:21:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 19:58:33.722829
- Title: S2WAT: Image Style Transfer via Hierarchical Vision Transformer using
Strips Window Attention
- Title(参考訳): S2WAT:ストリップウィンドウアテンションを用いた階層型視覚変換器による画像スタイル転送
- Authors: Chiyu Zhang, Xiaogang Xu, Lei Wang, Zaiyan Dai, Jun Yang
- Abstract要約: 本稿では,スタイル転送用に設計された新しい階層型視覚変換器であるStrips Window Attention Transformer (S2WAT)を紹介する。
S2WATは、ショートレンジとロングレンジの両方の依存関係をキャプチャするために、様々なウィンドウ形状の注意計算を使用する。
- 参考スコア(独自算出の注目度): 19.42715085294994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer's recent integration into style transfer leverages its
proficiency in establishing long-range dependencies, albeit at the expense of
attenuated local modeling. This paper introduces Strips Window Attention
Transformer (S2WAT), a novel hierarchical vision transformer designed for style
transfer. S2WAT employs attention computation in diverse window shapes to
capture both short- and long-range dependencies. The merged dependencies
utilize the "Attn Merge" strategy, which adaptively determines spatial weights
based on their relevance to the target. Extensive experiments on representative
datasets show the proposed method's effectiveness compared to state-of-the-art
(SOTA) transformer-based and other approaches. The code and pre-trained models
are available at https://github.com/AlienZhang1996/S2WAT.
- Abstract(参考訳): Transformerの最近のスタイル転送への統合は、局所的なモデリングを減らしたにもかかわらず、長距離依存を確立する能力を活用している。
本稿では,スタイル転送用に設計された新しい階層型視覚トランスである strips window attention transformer (s2wat) を紹介する。
s2watは、短距離と長距離の両方の依存関係を捉えるために、様々なウィンドウ形状の注意計算を用いる。
統合された依存関係は"Attn Merge"戦略を利用しており、ターゲットへの関連性に基づいて空間重みを適応的に決定する。
代表的データセットに対する大規模な実験により,提案手法の有効性が,SOTA(State-of-the-art)トランスフォーマーおよび他のアプローチと比較された。
コードと事前訓練されたモデルはhttps://github.com/AlienZhang1996/S2WATで入手できる。
関連論文リスト
- Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - Dual Aggregation Transformer for Image Super-Resolution [92.41781921611646]
画像SRのための新しいトランスモデルDual Aggregation Transformerを提案する。
DATは、ブロック間およびブロック内二重方式で、空間次元とチャネル次元にまたがる特徴を集約する。
我々のDATは現在の手法を超越している。
論文 参考訳(メタデータ) (2023-08-07T07:39:39Z) - Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - Dual-path Adaptation from Image to Video Transformers [62.056751480114784]
ViTやSwinのような視覚基盤モデルの超越する表現力を、トレーニング可能なパラメータ数だけでビデオ理解するために効率的に転送する。
本稿では,空間的および時間的適応経路に分離した新しいDualPath適応法を提案する。
論文 参考訳(メタデータ) (2023-03-17T09:37:07Z) - Transformers for End-to-End InfoSec Tasks: A Feasibility Study [6.847381178288385]
私たちは2つの異なるInfoSecデータフォーマット、特にURLとPEファイルに対してトランスフォーマーモデルを実装します。
URLトランスフォーマーモデルは、高いパフォーマンスレベルに達するためには、異なるトレーニングアプローチが必要です。
提案手法は,PEファイルのベンチマークデータセット上で,確立されたマルウェア検出モデルに相容れない性能を示す。
論文 参考訳(メタデータ) (2022-12-05T23:50:46Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。