論文の概要: Token Transformer: Can class token help window-based transformer build
better long-range interactions?
- arxiv url: http://arxiv.org/abs/2211.06083v1
- Date: Fri, 11 Nov 2022 09:36:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 16:33:08.873017
- Title: Token Transformer: Can class token help window-based transformer build
better long-range interactions?
- Title(参考訳): token transformer: class tokenは、ウィンドウベースのtransformerがより長距離インタラクションを構築するのに役立つか?
- Authors: Jiawei Mao, Yuanqi Chang, Xuesong Yin
- Abstract要約: ウィンドウベースのトランスは大きな進歩を遂げているが、ローカルウィンドウのサイズとウィンドウ接続方式により、その長距離モデリング能力は制限されている。
この問題に対処するために,新しいToken Transformer(TT)を提案する。
我々のTTは、画像分類や下流タスクにおいて、低いパラメータで競合する結果を得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compared with the vanilla transformer, the window-based transformer offers a
better trade-off between accuracy and efficiency. Although the window-based
transformer has made great progress, its long-range modeling capabilities are
limited due to the size of the local window and the window connection scheme.
To address this problem, we propose a novel Token Transformer (TT). The core
mechanism of TT is the addition of a Class (CLS) token for summarizing window
information in each local window. We refer to this type of token interaction as
CLS Attention. These CLS tokens will interact spatially with the tokens in each
window to enable long-range modeling. In order to preserve the hierarchical
design of the window-based transformer, we designed Feature Inheritance Module
(FIM) in each phase of TT to deliver the local window information from the
previous phase to the CLS token in the next phase. In addition, we have
designed a Spatial-Channel Feedforward Network (SCFFN) in TT, which can mix CLS
tokens and embedded tokens on the spatial domain and channel domain without
additional parameters. Extensive experiments have shown that our TT achieves
competitive results with low parameters in image classification and downstream
tasks.
- Abstract(参考訳): バニラ変圧器と比較すると、窓ベースの変圧器は精度と効率のトレードオフが良い。
ウィンドウベースのトランスは大きな進歩を遂げているが、ローカルウィンドウのサイズとウィンドウ接続方式により、その長距離モデリング能力は制限されている。
この問題に対処するために,新しいToken Transformer(TT)を提案する。
TTの中核となるメカニズムは、各ローカルウィンドウでウィンドウ情報を要約するクラス(CLS)トークンの追加である。
この種のトークンの相互作用を CLS Attention と呼ぶ。
これらのCLSトークンは、各ウィンドウ内のトークンと空間的に相互作用し、長距離モデリングを可能にする。
ウィンドウベーストランスの階層的設計を維持するため,TTの各フェーズに特徴継承モジュール(FIM)を設計し,前フェーズから次のフェーズにおいてローカルウィンドウ情報をCLSトークンに配信する。
さらに,空間領域とチャネル領域にCLSトークンと埋め込みトークンを付加パラメータなしで混合できる空間チャネルフィードフォワードネットワーク(SCFFN)をTT内に設計した。
我々のTTは画像分類や下流タスクにおいて低いパラメータで競合する結果が得られた。
関連論文リスト
- HiT-SR: Hierarchical Transformer for Efficient Image Super-Resolution [70.52256118833583]
変換器ベースSRネットワークを階層変換器(HiT-SR)に変換する戦略を提案する。
具体的には、一般的に使われている固定された小さなウィンドウを階層的なウィンドウに置き換えて、異なるスケールで機能を集約する。
大規模なウィンドウに必要となる計算量を考慮すると、窓の大きさに線形な複雑性を持つ空間チャネル相関法をさらに設計する。
論文 参考訳(メタデータ) (2024-07-08T12:42:10Z) - RFR-WWANet: Weighted Window Attention-Based Recovery Feature Resolution
Network for Unsupervised Image Registration [7.446209993071451]
Swin変換器は、その計算効率と長距離モデリング能力のために、医用画像解析に注目を集めている。
トランスフォーマーに基づく登録モデルは、複数のボクセルを単一のセマンティックトークンに結合する。
このマージプロセスは変換器をモデルに制限し、粗い粒度の空間情報を生成する。
本研究では, 高精度な空間情報提供を可能にするRFRNet(Recovery Feature Resolution Network)を提案する。
論文 参考訳(メタデータ) (2023-05-07T09:57:29Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - Multimodal Fusion Transformer for Remote Sensing Image Classification [35.57881383390397]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、期待できる性能のため、画像分類タスクにおいてトレンドとなっている。
CNNに近い満足なパフォーマンスを達成するために、トランスフォーマーはより少ないパラメータを必要とする。
HSI土地被覆分類のためのマルチヘッドクロスパッチアテンション(mCrossPA)を含む新しいマルチモーダルフュージョントランス (MFT) ネットワークを導入する。
論文 参考訳(メタデータ) (2022-03-31T11:18:41Z) - Global Interaction Modelling in Vision Transformer via Super Tokens [20.700750237972155]
ウィンドウベースのローカルアテンションは、最近の研究で採用されている主要なテクニックの1つである。
本稿では、ローカルウィンドウとスーパートークンと呼ばれる特別なトークンを自己注意のために採用した新しい等方的アーキテクチャを提案する。
Imagenet-1Kの標準画像分類では、提案されたSuper tokens based transformer (STT-S25) は83.5%の精度を実現している。
論文 参考訳(メタデータ) (2021-11-25T16:22:57Z) - PSViT: Better Vision Transformer via Token Pooling and Attention Sharing [114.8051035856023]
トークンプーリングとアテンション共有を併用したPSViTを提案する。
実験の結果,提案手法は画像ネット分類の精度を最大6.6%向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-08-07T11:30:54Z) - What Makes for Hierarchical Vision Transformer? [46.848348453909495]
Swin TransformerとShuffle Transformerの自己アテンション層を単純な線形マッピングで置き換え、他のコンポーネントをそのままにします。
25.4Mパラメータと4.2GのFLOPを持つアーキテクチャは、28.3Mパラメータと4.5GのFLOPを持つSwin Transformerの81.3%と比較して80.5%のTop-1精度を実現している。
論文 参考訳(メタデータ) (2021-07-05T17:59:35Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。