論文の概要: Learning Patch-to-Cluster Attention in Vision Transformer
- arxiv url: http://arxiv.org/abs/2203.11987v1
- Date: Tue, 22 Mar 2022 18:28:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 14:55:45.159140
- Title: Learning Patch-to-Cluster Attention in Vision Transformer
- Title(参考訳): 視覚変換器におけるパッチ・クラスタ・アテンションの学習
- Authors: Ryan Grainger, Thomas Paniagua, Xi Song, Tianfu Wu
- Abstract要約: 本稿では,パッチ・ツー・クラスタ・アテンション(PaCa)に基づくViTモデルについて述べる。
クラスタはエンドツーエンドで学習され、より優れたトークンライザと、アテンションのための共同クラスタリングとアテンション・フォー・クラスタリングを実現する。
実験では,CIFAR-100とImageNet-1000の画像分類,MS-COCOオブジェクト検出とインスタンスセグメンテーションを用いてPaCa-ViTを提案する。
- 参考スコア(独自算出の注目度): 11.290782795110776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Vision Transformer (ViT) model is built on the assumption of treating
image patches as "visual tokens" and learning patch-to-patch attention. The
patch embedding based tokenizer is a workaround in practice and has a semantic
gap with respect to its counterpart, the textual tokenizer. The patch-to-patch
attention suffers from the quadratic complexity issue, and also makes it
non-trivial to explain learned ViT models. To address these issues in ViT
models, this paper proposes to learn patch-to-cluster attention (PaCa) based
ViT models. Queries in our PaCaViT are based on patches, while keys and values
are based on clustering (with a predefined small number of clusters). The
clusters are learned end-to-end, leading to better tokenizers and realizing
joint clustering-for-attention and attention-for-clustering when deployed in
ViT models. The quadratic complexity is relaxed to linear complexity. Also,
directly visualizing the learned clusters can reveal how a trained ViT model
learns to perform a task (e.g., object detection). In experiments, the proposed
PaCa-ViT is tested on CIFAR-100 and ImageNet-1000 image classification, and
MS-COCO object detection and instance segmentation. Compared with prior arts,
it obtains better performance in classification and comparable performance in
detection and segmentation. It is significantly more efficient in COCO due to
the linear complexity. The learned clusters are also semantically meaningful
and shed light on designing more discriminative yet interpretable ViT models.
- Abstract(参考訳): vision transformer(vit)モデルは、イメージパッチを"ビジュアルトークン"として扱い、パッチからパッチへの注意を学習するという仮定に基づいている。
パッチ埋め込みベースのトークン化ツールは実際には回避策であり、テキストトークン化ツールとは意味的なギャップがある。
パッチ・トゥ・パッチの注意は二次的な複雑性の問題に悩まされ、学習されたViTモデルを説明するのも簡単ではない。
本稿では,パッチ・ツー・クラスタ・アテンション(PaCa)に基づくViTモデルを提案する。
PaCaViTのクエリはパッチに基づいており、キーと値はクラスタ化(事前定義された少数のクラスタ)に基づいています。
クラスタはエンドツーエンドで学習され、より優れたトークンライザと、ViTモデルにデプロイされた共同クラスタリングとアテンション・フォー・クラスタリングを実現する。
二次複雑性は線形複雑性に緩和される。
また、学習したクラスタを直接視覚化することで、トレーニングされたViTモデルがどのようにタスクを実行するか(オブジェクト検出など)を明らかにすることができる。
実験では,CIFAR-100とImageNet-1000の画像分類,MS-COCOオブジェクト検出とインスタンスセグメンテーションでPaCa-ViTを提案する。
先行技術と比較すると、分類における優れた性能と、検出とセグメンテーションにおける同等の性能が得られる。
線形複雑性のためCOCOでは著しく効率的である。
学習したクラスタは意味的に意味があり、より差別的で解釈可能なViTモデルの設計に重点を置いている。
関連論文リスト
- Accelerating Transformers with Spectrum-Preserving Token Merging [43.463808781808645]
PiToMeは、エネルギースコアと呼ばれる追加のメトリックを使用して、情報トークンの保存を優先する。
実験の結果,PiToMeはベースモデルの40~60%のFLOPから保存されていた。
論文 参考訳(メタデータ) (2024-05-25T09:37:01Z) - Homogeneous Tokenizer Matters: Homogeneous Visual Tokenizer for Remote Sensing Image Understanding [13.920198434637223]
トークン化器は、大型モデルの基本的な構成要素の1つであり、長い間見過ごされてきたか、視覚的なタスクで誤解されている。
我々は、単純なホモジニアスな視覚的tOKenizer: HOOKを設計する。
均一性を達成するため、OPMは画像を4*4ピクセルのシードに分割し、注意機構を利用してSIRを知覚する。
OVMは、学習可能なベクトルの変数数をクロスアテンションクエリとして定義し、トークン量の調整を可能にする。
論文 参考訳(メタデータ) (2024-03-27T14:18:09Z) - S^2MVTC: a Simple yet Efficient Scalable Multi-View Tensor Clustering [38.35594663863098]
6つの大規模マルチビューデータセットの実験結果から、S2MVTCはクラスタリング性能とCPU実行時間において、最先端のアルゴリズムを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-14T05:00:29Z) - SegViTv2: Exploring Efficient and Continual Semantic Segmentation with
Plain Vision Transformers [76.13755422671822]
本稿では,エンコーダ・デコーダ・フレームワークを用いた意味的セグメンテーションのためのプレーンビジョン変換器(ViT)の能力について検討する。
Intention-to-Mask(atm)モジュールを導入し、平易なViTに有効な軽量デコーダを設計する。
我々のデコーダは、様々なViTバックボーンを使用して人気のあるデコーダUPerNetより優れ、計算コストの5%程度しか消費しない。
論文 参考訳(メタデータ) (2023-06-09T22:29:56Z) - Image as Set of Points [60.30495338399321]
コンテキストクラスタ(CoC)は、イメージを非組織的なポイントの集合と見なし、単純化されたクラスタリングアルゴリズムによって特徴を抽出する。
われわれのCoCは畳み込みと無注意で、空間的相互作用のためのクラスタリングアルゴリズムにのみ依存している。
論文 参考訳(メタデータ) (2023-03-02T18:56:39Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - Green Hierarchical Vision Transformer for Masked Image Modeling [54.14989750044489]
階層型視覚変換器(ViT)を用いたマスク付き画像モデリングのための効率的な手法を提案する。
グループウィンドウのアテンションスキームは,ディバイド・アンド・コンカエ戦略に従って設計する。
グループ化されたパッチに対する注意の全体的なコストを最小限に抑えるため、動的プログラミングアルゴリズムによるグループ化戦略をさらに改善する。
論文 参考訳(メタデータ) (2022-05-26T17:34:42Z) - So-ViT: Mind Visual Tokens for Vision Transformer [27.243241133304785]
本稿では,視覚トークンの2次相互分散プールとクラストークンを組み合わせ,最終分類を行う新しい分類パラダイムを提案する。
我々は,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。
その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
論文 参考訳(メタデータ) (2021-04-22T09:05:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。