論文の概要: SWAT: Spatial Structure Within and Among Tokens
- arxiv url: http://arxiv.org/abs/2111.13677v3
- Date: Mon, 20 Nov 2023 16:37:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 21:27:32.037153
- Title: SWAT: Spatial Structure Within and Among Tokens
- Title(参考訳): swat:トークン内とトークン間の空間構造
- Authors: Kumara Kahatapitiya and Michael S. Ryoo
- Abstract要約: 我々は,トークン化時に空間構造が保存される場合,モデルが顕著な利得が得られることを論じる。
本研究では,(1)構造認識のトークン化と(2)構造認識のミキシングという2つの重要なコントリビューションを提案する。
- 参考スコア(独自算出の注目度): 53.525469741515884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling visual data as tokens (i.e., image patches) using attention
mechanisms, feed-forward networks or convolutions has been highly effective in
recent years. Such methods usually have a common pipeline: a tokenization
method, followed by a set of layers/blocks for information mixing, both within
and among tokens. When image patches are converted into tokens, they are often
flattened, discarding the spatial structure within each patch. As a result, any
processing that follows (eg: multi-head self-attention) may fail to recover
and/or benefit from such information. In this paper, we argue that models can
have significant gains when spatial structure is preserved during tokenization,
and is explicitly used during the mixing stage. We propose two key
contributions: (1) Structure-aware Tokenization and, (2) Structure-aware
Mixing, both of which can be combined with existing models with minimal effort.
We introduce a family of models (SWAT), showing improvements over the likes of
DeiT, MLP-Mixer and Swin Transformer, across multiple benchmarks including
ImageNet classification and ADE20K segmentation. Our code is available at
https://github.com/kkahatapitiya/SWAT.
- Abstract(参考訳): 近年,注意機構,フィードフォワードネットワーク,畳み込みを用いたトークン(画像パッチ)としての視覚データのモデリングが盛んに行われている。
このようなメソッドは通常共通のパイプラインを持ち、トークン化メソッドに続いて、トークン内およびトークン間の情報混合のためのレイヤ/ブロックのセットが続く。
イメージパッチがトークンに変換されると、しばしばフラット化され、各パッチ内の空間構造を捨てる。
その結果、後続の処理(例えば、マルチヘッドの自己注意)は、そのような情報から回復または/または利益を得ることができない。
本稿では,モデルがトークン化期間中に空間構造が保存され,混合段階で明示的に使用される場合,大きな利益が得られることを論じる。
1) 構造認識トークン化と, (2) 構造認識混合とを組み合わせることで, 既存のモデルと最小限の労力で組み合わせることができる。
我々は、ImageNet分類やADE20Kセグメンテーションを含む複数のベンチマークにおいて、DeiT、MLP-Mixer、Swin Transformerなどよりも改善されたモデル群(SWAT)を紹介する。
私たちのコードはhttps://github.com/kkahatapitiya/SWAT.comから入手可能です。
関連論文リスト
- Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。
視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。
分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文 参考訳(メタデータ) (2024-05-16T03:26:06Z) - Information Flow Routes: Automatically Interpreting Language Models at Scale [9.156549818722581]
情報は、モデルに実装されたメカニズムを介して、ネットワーク内のルートによって流れる。
私たちはこれらのグラフをトップダウンで構築し、各予測は最も重要なノードとエッジだけを残します。
いくつかのモデルコンポーネントは、コーディングや多言語テキストのようなドメインに特化できることを示す。
論文 参考訳(メタデータ) (2024-02-27T00:24:42Z) - Learning to Embed Time Series Patches Independently [5.752266579415516]
近年,時系列モデリングは時系列の自己教師型表現学習戦略として注目されている。
このようなパッチをキャプチャすることは、時系列表現学習の最適戦略ではないかもしれない、と我々は主張する。
本論文では,1)他のパッチを見ることなく各パッチを自動エンコードするシンプルなパッチ再構築タスク,2)個別に各パッチを埋め込むシンプルなパッチワイド再構築タスクを提案する。
論文 参考訳(メタデータ) (2023-12-27T06:23:29Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - UMIFormer: Mining the Correlations between Similar Tokens for Multi-View
3D Reconstruction [9.874357856580447]
非構造化多重画像(UMIFormer)のためのトランスフォーマネットワークを提案する。
これは、切り離されたビュー内エンコーディングのためのトランスフォーマーブロックと、トークンの修正のために設計されたブロックを利用する。
様々な分岐から取得した全てのトークンは、固定サイズのコンパクト表現に圧縮される。
論文 参考訳(メタデータ) (2023-02-27T17:27:45Z) - CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。
これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。
本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-05-02T12:02:09Z) - PSViT: Better Vision Transformer via Token Pooling and Attention Sharing [114.8051035856023]
トークンプーリングとアテンション共有を併用したPSViTを提案する。
実験の結果,提案手法は画像ネット分類の精度を最大6.6%向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-08-07T11:30:54Z) - VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive
Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。
空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。
また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文 参考訳(メタデータ) (2021-06-21T16:48:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。