論文の概要: PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers
- arxiv url: http://arxiv.org/abs/2203.11987v2
- Date: Fri, 7 Apr 2023 00:46:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 15:41:18.496219
- Title: PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers
- Title(参考訳): PaCa-ViT:視覚変換器におけるパッチ・クラスタ・アテンションの学習
- Authors: Ryan Grainger, Thomas Paniagua, Xi Song, Naresh Cuntoor, Mun Wai Lee,
Tianfu Wu
- Abstract要約: 本稿では、視覚変換器(ViT)におけるパッチ・クラスタ・アテンション(PaCa)の学習を提案する。
提案したPaCaモジュールは、効率的かつ解釈可能なViTバックボーンとセマンティックセグメンテーションヘッドネットワークの設計に使用される。
線形複雑性のため、MS-COCOやMIT-ADE20kのPVTモデルよりもはるかに効率的である。
- 参考スコア(独自算出の注目度): 9.63371509052453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) are built on the assumption of treating image
patches as ``visual tokens" and learn patch-to-patch attention. The patch
embedding based tokenizer has a semantic gap with respect to its counterpart,
the textual tokenizer. The patch-to-patch attention suffers from the quadratic
complexity issue, and also makes it non-trivial to explain learned ViTs. To
address these issues in ViT, this paper proposes to learn Patch-to-Cluster
attention (PaCa) in ViT. Queries in our PaCa-ViT starts with patches, while
keys and values are directly based on clustering (with a predefined small
number of clusters). The clusters are learned end-to-end, leading to better
tokenizers and inducing joint clustering-for-attention and
attention-for-clustering for better and interpretable models. The quadratic
complexity is relaxed to linear complexity. The proposed PaCa module is used in
designing efficient and interpretable ViT backbones and semantic segmentation
head networks. In experiments, the proposed methods are tested on ImageNet-1k
image classification, MS-COCO object detection and instance segmentation and
MIT-ADE20k semantic segmentation. Compared with the prior art, it obtains
better performance in all the three benchmarks than the SWin and the PVTs by
significant margins in ImageNet-1k and MIT-ADE20k. It is also significantly
more efficient than PVT models in MS-COCO and MIT-ADE20k due to the linear
complexity. The learned clusters are semantically meaningful. Code and model
checkpoints are available at https://github.com/iVMCL/PaCaViT.
- Abstract(参考訳): vision transformers (vits) はイメージパッチを ``visual tokens' として扱い、パッチからパッチへの注意を学習するという仮定に基づいている。
パッチ埋め込みベースのトークン化器は、対応するテキストトークン化器に対して意味的ギャップを有する。
パッチからパッチへの注意は二次複雑性の問題に苦しめられ、学習したvitを説明するのも簡単ではない。
ViTにおけるこれらの問題に対処するために,本稿では,Patch-to-Cluster attention (PaCa) をViTで学習することを提案する。
PaCa-ViTのクエリはパッチから始まり、キーと値は(予め定義された少数のクラスタで)クラスタリングに基づいています。
クラスタはエンドツーエンドで学習され、より優れたトークン化と、より優れた解釈可能なモデルのための共同クラスタリングとアテンション・フォー・クラスタリングを誘導する。
二次複雑性は線形複雑性に緩和される。
提案したPaCaモジュールは、効率的なViTバックボーンとセマンティックセグメンテーションヘッドネットワークの設計に使用される。
実験では,imagenet-1k画像分類,ms-cocoオブジェクト検出,インスタンスセグメンテーション,mit-ade20k意味セグメンテーションについて実験を行った。
以前の技術と比較すると、ImageNet-1kとMIT-ADE20kでは大きな差でSWinとPVTよりも3つのベンチマークでパフォーマンスが向上している。
また、線形複雑性のため、MS-COCOやMIT-ADE20kのPVTモデルよりもはるかに効率的である。
学習されたクラスタは意味的に意味がある。
コードとモデルチェックポイントはhttps://github.com/iVMCL/PaCaViT.comで入手できる。
関連論文リスト
- Accelerating Transformers with Spectrum-Preserving Token Merging [43.463808781808645]
PiToMeは、エネルギースコアと呼ばれる追加のメトリックを使用して、情報トークンの保存を優先する。
実験の結果,PiToMeはベースモデルの40~60%のFLOPから保存されていた。
論文 参考訳(メタデータ) (2024-05-25T09:37:01Z) - Homogeneous Tokenizer Matters: Homogeneous Visual Tokenizer for Remote Sensing Image Understanding [13.920198434637223]
トークン化器は、大型モデルの基本的な構成要素の1つであり、長い間見過ごされてきたか、視覚的なタスクで誤解されている。
我々は、単純なホモジニアスな視覚的tOKenizer: HOOKを設計する。
均一性を達成するため、OPMは画像を4*4ピクセルのシードに分割し、注意機構を利用してSIRを知覚する。
OVMは、学習可能なベクトルの変数数をクロスアテンションクエリとして定義し、トークン量の調整を可能にする。
論文 参考訳(メタデータ) (2024-03-27T14:18:09Z) - S^2MVTC: a Simple yet Efficient Scalable Multi-View Tensor Clustering [38.35594663863098]
6つの大規模マルチビューデータセットの実験結果から、S2MVTCはクラスタリング性能とCPU実行時間において、最先端のアルゴリズムを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-14T05:00:29Z) - SegViTv2: Exploring Efficient and Continual Semantic Segmentation with
Plain Vision Transformers [76.13755422671822]
本稿では,エンコーダ・デコーダ・フレームワークを用いた意味的セグメンテーションのためのプレーンビジョン変換器(ViT)の能力について検討する。
Intention-to-Mask(atm)モジュールを導入し、平易なViTに有効な軽量デコーダを設計する。
我々のデコーダは、様々なViTバックボーンを使用して人気のあるデコーダUPerNetより優れ、計算コストの5%程度しか消費しない。
論文 参考訳(メタデータ) (2023-06-09T22:29:56Z) - Image as Set of Points [60.30495338399321]
コンテキストクラスタ(CoC)は、イメージを非組織的なポイントの集合と見なし、単純化されたクラスタリングアルゴリズムによって特徴を抽出する。
われわれのCoCは畳み込みと無注意で、空間的相互作用のためのクラスタリングアルゴリズムにのみ依存している。
論文 参考訳(メタデータ) (2023-03-02T18:56:39Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - Green Hierarchical Vision Transformer for Masked Image Modeling [54.14989750044489]
階層型視覚変換器(ViT)を用いたマスク付き画像モデリングのための効率的な手法を提案する。
グループウィンドウのアテンションスキームは,ディバイド・アンド・コンカエ戦略に従って設計する。
グループ化されたパッチに対する注意の全体的なコストを最小限に抑えるため、動的プログラミングアルゴリズムによるグループ化戦略をさらに改善する。
論文 参考訳(メタデータ) (2022-05-26T17:34:42Z) - So-ViT: Mind Visual Tokens for Vision Transformer [27.243241133304785]
本稿では,視覚トークンの2次相互分散プールとクラストークンを組み合わせ,最終分類を行う新しい分類パラダイムを提案する。
我々は,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。
その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
論文 参考訳(メタデータ) (2021-04-22T09:05:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。