論文の概要: TCFormer: Visual Recognition via Token Clustering Transformer
- arxiv url: http://arxiv.org/abs/2407.11321v1
- Date: Tue, 16 Jul 2024 02:26:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 18:52:01.227886
- Title: TCFormer: Visual Recognition via Token Clustering Transformer
- Title(参考訳): TCTCer:Token Clustering Transformerによる視覚認識
- Authors: Wang Zeng, Sheng Jin, Lumin Xu, Wentao Liu, Chen Qian, Wanli Ouyang, Ping Luo, Xiaogang Wang,
- Abstract要約: 本稿では,意味に基づく動的視覚トークンを生成するToken Clustering Transformer (TCFormer)を提案する。
ダイナミックトークンには2つの重要な特徴がある:(1)同じ視覚トークンを用いて類似の意味を持つ画像領域を表現し、(2)それらの領域が隣接していない場合でも、(2)貴重な詳細を持つ領域に集中し、細かなトークンを用いてそれらを表現する。
- 参考スコア(独自算出の注目度): 79.24723479088097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers are widely used in computer vision areas and have achieved remarkable success. Most state-of-the-art approaches split images into regular grids and represent each grid region with a vision token. However, fixed token distribution disregards the semantic meaning of different image regions, resulting in sub-optimal performance. To address this issue, we propose the Token Clustering Transformer (TCFormer), which generates dynamic vision tokens based on semantic meaning. Our dynamic tokens possess two crucial characteristics: (1) Representing image regions with similar semantic meanings using the same vision token, even if those regions are not adjacent, and (2) concentrating on regions with valuable details and represent them using fine tokens. Through extensive experimentation across various applications, including image classification, human pose estimation, semantic segmentation, and object detection, we demonstrate the effectiveness of our TCFormer. The code and models for this work are available at https://github.com/zengwang430521/TCFormer.
- Abstract(参考訳): トランスフォーマーはコンピュータビジョン領域で広く使われており、大きな成功を収めている。
ほとんどの最先端のアプローチでは、イメージを通常のグリッドに分割し、各グリッド領域を視覚トークンで表現する。
しかし、固定されたトークン分布は、異なる画像領域の意味を無視し、結果として準最適性能をもたらす。
この問題に対処するために,意味的意味に基づく動的視覚トークンを生成するToken Clustering Transformer (TCFormer)を提案する。
ダイナミックトークンには2つの重要な特徴がある:(1)同じ視覚トークンを用いて類似の意味を持つ画像領域を表現し、(2)それらの領域が隣接していない場合でも、(2)貴重な詳細を持つ領域に集中し、細かなトークンを用いてそれらを表現する。
画像分類,人物ポーズ推定,セマンティックセグメンテーション,オブジェクト検出など,さまざまな応用の広範な実験を通じて,TCFormerの有効性を実証する。
この作業のコードとモデルはhttps://github.com/zengwang430521/TCFormer.comで公開されている。
関連論文リスト
- Understanding the Effect of using Semantically Meaningful Tokens for Visual Representation Learning [41.81009725976217]
視覚言語事前学習フレームワーク内のトランスフォーマーエンコーダに対して意味論的に意味のある視覚トークンを提供する。
テキスト・ツー・イメージ検索タスクと画像・テキスト検索タスク間で学習された表現品質のViTに対する顕著な改善を示す。
論文 参考訳(メタデータ) (2024-05-26T01:46:22Z) - LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。
視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。
分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文 参考訳(メタデータ) (2024-05-16T03:26:06Z) - Tokenize Anything via Prompting [65.93061853439512]
我々は,任意のものを同時にセグメンテーションし,認識し,キャプションすることができる統一的,迅速なモデルを提案する。
我々は、50億のパラメータを持つ事前学習されたCLIPモデルから、巨大なセグメンテーションマスク、eg、SA-1Bマスク、セマンティックプリミティブを持つ一般化可能なモデルをトレーニングする。
我々は,このモデルが汎用領域コンテキストを符号化できる汎用領域レベルの画像トークン化器であると考えている。
論文 参考訳(メタデータ) (2023-12-14T17:01:02Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文 参考訳(メタデータ) (2023-03-15T15:12:36Z) - Siamese Image Modeling for Self-Supervised Vision Representation
Learning [73.78790119050056]
自己教師付き学習(SSL)は、さまざまな下流視覚タスクにおいて優れたパフォーマンスを提供している。
2つのメインストリームSSLフレームワーク、すなわちインスタンス識別(ID)とマスク画像モデリング(MIM)が提案されている。
本稿では,拡張ビューの濃密な表現を予測できるSiamese Image Modeling (SIM)を提案する。
論文 参考訳(メタデータ) (2022-06-02T17:59:58Z) - Not All Tokens Are Equal: Human-centric Visual Analysis via Token
Clustering Transformer [91.49837514935051]
我々はToken Clustering Transformer(TCFormer)と呼ばれる新しいビジョントランスを提案する。
TCTCerはトークンをプログレッシブクラスタリングによってマージし、トークンはフレキシブルな形状とサイズで異なる場所からマージすることができる。
実験によると、TCFormerは人間中心のさまざまなタスクやデータセットにおいて、一貫してその能力を上回っている。
論文 参考訳(メタデータ) (2022-04-19T05:38:16Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。