論文の概要: SWAT: Spatial Structure Within and Among Tokens
- arxiv url: http://arxiv.org/abs/2111.13677v1
- Date: Fri, 26 Nov 2021 18:59:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 17:23:07.148540
- Title: SWAT: Spatial Structure Within and Among Tokens
- Title(参考訳): swat:トークン内とトークン間の空間構造
- Authors: Kumara Kahatapitiya and Michael S. Ryoo
- Abstract要約: 空間構造がトークン化で保存されている場合、モデルは顕著な利得が得られると我々は論じる。
本研究では,(1)構造認識のトークン化と(2)構造認識のミキシングという2つの重要なコントリビューションを提案する。
- 参考スコア(独自算出の注目度): 45.03545172714305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling visual data as tokens (i.e., image patches), and applying attention
mechanisms or feed-forward networks on top of them has shown to be highly
effective in recent years. The common pipeline in such approaches includes a
tokenization method, followed by a set of layers/blocks for information mixing,
both within tokens and among tokens. In common practice, image patches are
flattened when converted into tokens, discarding the spatial structure within
each patch. Next, a module such as multi-head self-attention captures the
pairwise relations among the tokens and mixes them. In this paper, we argue
that models can have significant gains when spatial structure is preserved in
tokenization, and is explicitly used in the mixing stage. We propose two key
contributions: (1) Structure-aware Tokenization and, (2) Structure-aware
Mixing, both of which can be combined with existing models with minimal effort.
We introduce a family of models (SWAT), showing improvements over the likes of
DeiT, MLP-Mixer and Swin Transformer, across multiple benchmarks including
ImageNet classification and ADE20K segmentation. Our code and models will be
released online.
- Abstract(参考訳): 視覚データをトークン(画像パッチ)としてモデル化し、その上に注意機構やフィードフォワードネットワークを適用することで、近年は非常に効果的であることが示されている。
このようなアプローチの共通パイプラインはトークン化メソッドを含み、続いてトークン内およびトークン間の情報混合のためのレイヤ/ブロックのセットが続く。
一般的には、イメージパッチはトークンに変換されるとフラットになり、各パッチ内の空間構造を捨てる。
次に、マルチヘッドセルフアテンションのようなモジュールがトークン間の対関係をキャプチャして混合する。
本稿では,空間構造がトークン化で保存されている場合,モデルが大きな利益をもたらす可能性があり,混合段階において明示的に用いられることを論じる。
1) 構造認識トークン化と, (2) 構造認識混合とを組み合わせることで, 既存のモデルと最小限の労力で組み合わせることができる。
我々は、ImageNet分類やADE20Kセグメンテーションを含む複数のベンチマークにおいて、DeiT、MLP-Mixer、Swin Transformerなどよりも改善されたモデル群(SWAT)を紹介する。
私たちのコードとモデルはオンラインでリリースされます。
関連論文リスト
- Information Flow Routes: Automatically Interpreting Language Models at
Scale [10.291044373790745]
情報は、モデルに実装されたメカニズムを介して、ネットワーク内のルートによって流れる。
私たちはこれらのグラフをトップダウンで構築し、各予測は最も重要なノードとエッジだけを残します。
いくつかのモデルコンポーネントは、コーディングや多言語テキストのようなドメインに特化できることを示す。
論文 参考訳(メタデータ) (2024-02-27T00:24:42Z) - Learning to Embed Time Series Patches Independently [6.464971172613252]
近年,時系列モデリングは時系列の自己教師型表現学習戦略として注目されている。
このようなパッチをキャプチャすることは、時系列表現学習の最適戦略ではないかもしれない、と我々は主張する。
本論文では,1)他のパッチを見ることなく各パッチを自動エンコードするシンプルなパッチ再構築タスク,2)個別に各パッチを埋め込むシンプルなパッチワイド再構築タスクを提案する。
論文 参考訳(メタデータ) (2023-12-27T06:23:29Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - UMIFormer: Mining the Correlations between Similar Tokens for Multi-View
3D Reconstruction [9.874357856580447]
非構造化多重画像(UMIFormer)のためのトランスフォーマネットワークを提案する。
これは、切り離されたビュー内エンコーディングのためのトランスフォーマーブロックと、トークンの修正のために設計されたブロックを利用する。
様々な分岐から取得した全てのトークンは、固定サイズのコンパクト表現に圧縮される。
論文 参考訳(メタデータ) (2023-02-27T17:27:45Z) - CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。
これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。
本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-05-02T12:02:09Z) - PSViT: Better Vision Transformer via Token Pooling and Attention Sharing [114.8051035856023]
トークンプーリングとアテンション共有を併用したPSViTを提案する。
実験の結果,提案手法は画像ネット分類の精度を最大6.6%向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-08-07T11:30:54Z) - VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive
Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。
空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。
また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文 参考訳(メタデータ) (2021-06-21T16:48:19Z) - AAformer: Auto-Aligned Transformer for Person Re-Identification [77.29096172564091]
Transformerは、画像分類やオブジェクト検出などの多くのビジョンタスクにおいて、畳み込みアーキテクチャよりも優位性を示しています。
部分表現を学習するために「部分トークン」の学習可能なベクトルを追加することにより、トランスフォーマーのための新しいアライメントフレームワークを開発した。
このフレームワークに基づいて、同一のセマンティクスのパッチ埋め込みを同一部分トークンに適応的に割り当てるオンライン自動調整変換器(AAformer)を設計する。
論文 参考訳(メタデータ) (2021-04-02T08:00:25Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。