論文の概要: Not All Tokens Are Equal: Human-centric Visual Analysis via Token
Clustering Transformer
- arxiv url: http://arxiv.org/abs/2204.08680v2
- Date: Wed, 20 Apr 2022 09:39:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 11:16:48.954883
- Title: Not All Tokens Are Equal: Human-centric Visual Analysis via Token
Clustering Transformer
- Title(参考訳): すべてのトークンが同じではない:Token Clustering Transformerによる人間中心のビジュアル分析
- Authors: Wang Zeng, Sheng Jin, Wentao Liu, Chen Qian, Ping Luo, Wanli Ouyang,
and Xiaogang Wang
- Abstract要約: 我々はToken Clustering Transformer(TCFormer)と呼ばれる新しいビジョントランスを提案する。
TCTCerはトークンをプログレッシブクラスタリングによってマージし、トークンはフレキシブルな形状とサイズで異なる場所からマージすることができる。
実験によると、TCFormerは人間中心のさまざまなタスクやデータセットにおいて、一貫してその能力を上回っている。
- 参考スコア(独自算出の注目度): 91.49837514935051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers have achieved great successes in many computer vision
tasks. Most methods generate vision tokens by splitting an image into a regular
and fixed grid and treating each cell as a token. However, not all regions are
equally important in human-centric vision tasks, e.g., the human body needs a
fine representation with many tokens, while the image background can be modeled
by a few tokens. To address this problem, we propose a novel Vision
Transformer, called Token Clustering Transformer (TCFormer), which merges
tokens by progressive clustering, where the tokens can be merged from different
locations with flexible shapes and sizes. The tokens in TCFormer can not only
focus on important areas but also adjust the token shapes to fit the semantic
concept and adopt a fine resolution for regions containing critical details,
which is beneficial to capturing detailed information. Extensive experiments
show that TCFormer consistently outperforms its counterparts on different
challenging human-centric tasks and datasets, including whole-body pose
estimation on COCO-WholeBody and 3D human mesh reconstruction on 3DPW. Code is
available at https://github.com/ zengwang430521/TCFormer.git.
- Abstract(参考訳): ビジョントランスフォーマーは多くのコンピュータビジョンタスクで大きな成功を収めた。
ほとんどの方法は、画像を正規および固定されたグリッドに分割し、各セルをトークンとして扱うことで視覚トークンを生成する。
しかし、全ての領域が人間中心の視覚タスクにおいて等しく重要であるわけではない。例えば、人間の体は多くのトークンを持つ微妙な表現を必要とするが、画像背景はいくつかのトークンでモデル化できる。
そこで本研究では,トークンをフレキシブルな形状と大きさの異なる場所からマージ可能な,プログレッシブクラスタリングによってトークンをマージする,Token Clustering Transformer (TCFormer) という新しいビジョントランスフォーマーを提案する。
tcformerのトークンは重要な領域に焦点を合わせるだけでなく、意味概念に合うようにトークン形状を調整したり、重要な詳細情報を含む領域に対して詳細な解決を行うことができる。
大規模な実験によると、TCFormerは、COCO-WholeBodyの全身ポーズ推定や3DPWの3Dヒューマンメッシュ再構築など、さまざまな挑戦的な人間中心のタスクやデータセットにおいて、一貫してその成果を上げている。
コードはhttps://github.com/ zengwang430521/TCFormer.gitで入手できる。
関連論文リスト
- ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z) - TCFormer: Visual Recognition via Token Clustering Transformer [79.24723479088097]
本稿では,意味に基づく動的視覚トークンを生成するToken Clustering Transformer (TCFormer)を提案する。
ダイナミックトークンには2つの重要な特徴がある:(1)同じ視覚トークンを用いて類似の意味を持つ画像領域を表現し、(2)それらの領域が隣接していない場合でも、(2)貴重な詳細を持つ領域に集中し、細かなトークンを用いてそれらを表現する。
論文 参考訳(メタデータ) (2024-07-16T02:26:18Z) - Long-Range Grouping Transformer for Multi-View 3D Reconstruction [9.2709012704338]
配当原理に基づくLGA(Long-range Grouping attention)を提案する。
ビュー間特徴を接続する効率的かつ効率的なエンコーダを確立することができる。
プログレッシブ・アップサンプリング・デコーダは比較的高解像度のボクセル生成のために設計された。
論文 参考訳(メタデータ) (2023-08-17T01:34:59Z) - Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文 参考訳(メタデータ) (2023-03-15T15:12:36Z) - UMIFormer: Mining the Correlations between Similar Tokens for Multi-View
3D Reconstruction [9.874357856580447]
非構造化多重画像(UMIFormer)のためのトランスフォーマネットワークを提案する。
これは、切り離されたビュー内エンコーディングのためのトランスフォーマーブロックと、トークンの修正のために設計されたブロックを利用する。
様々な分岐から取得した全てのトークンは、固定サイズのコンパクト表現に圧縮される。
論文 参考訳(メタデータ) (2023-02-27T17:27:45Z) - Vision Transformer with Super Token Sampling [93.70963123497327]
多くの視覚タスクにおいて、視覚変換器は印象的なパフォーマンスを達成した。
浅い層のために局所的な特徴を捉える際に、高い冗長性に悩まされる可能性がある。
スーパートークンは、視覚的コンテンツの意味的に意味のあるテッセルレーションを提供しようとする。
論文 参考訳(メタデータ) (2022-11-21T03:48:13Z) - Improving Visual Quality of Image Synthesis by A Token-based Generator
with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。
提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2021-11-05T12:57:50Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。