論文の概要: TORE: Token Reduction for Efficient Human Mesh Recovery with Transformer
- arxiv url: http://arxiv.org/abs/2211.10705v1
- Date: Sat, 19 Nov 2022 14:06:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 20:07:32.106004
- Title: TORE: Token Reduction for Efficient Human Mesh Recovery with Transformer
- Title(参考訳): tore: トランスフォーマーによる効率的なメッシュリカバリのためのトークン削減
- Authors: Zhiyang Dou, Qingxuan Wu, Cheng Lin, Zeyu Cao, Qiangqiang Wu, Weilin
Wan, Taku Komura, Wenping Wang
- Abstract要約: 本稿では,モノクロ画像からトランスフォーマーをベースとしたHuman Meshリカバリのための効果的なToken Reduction戦略を提案する。
本稿では,2つの重要な側面,すなわち3次元幾何学構造と2次元画像特徴に基づくトークン削減戦略を提案する。
提案手法はトランスフォーマーにおける高複雑さ相互作用に関与するトークンの数を大幅に削減し,計算コストを大幅に削減した形状回復の競合精度を実現する。
- 参考スコア(独自算出の注目度): 34.46696132157042
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we introduce a set of effective TOken REduction (TORE)
strategies for Transformer-based Human Mesh Recovery from monocular images.
Current SOTA performance is achieved by Transformer-based structures. However,
they suffer from high model complexity and computation cost caused by redundant
tokens. We propose token reduction strategies based on two important aspects,
i.e., the 3D geometry structure and 2D image feature, where we hierarchically
recover the mesh geometry with priors from body structure and conduct token
clustering to pass fewer but more discriminative image feature tokens to the
Transformer. As a result, our method vastly reduces the number of tokens
involved in high-complexity interactions in the Transformer, achieving
competitive accuracy of shape recovery at a significantly reduced computational
cost. We conduct extensive experiments across a wide range of benchmarks to
validate the proposed method and further demonstrate the generalizability of
our method on hand mesh recovery. Our code will be publicly available once the
paper is published.
- Abstract(参考訳): 本稿では,モノクロ画像からトランスフォーマーをベースとしたヒューマンメッシュ回復のための効果的なToken Reduction(TORE)戦略を提案する。
現在のSOTA性能はTransformerベースの構造によって達成されている。
しかし、冗長なトークンによって引き起こされる高いモデルの複雑さと計算コストに苦しむ。
本稿では,2つの重要な側面,すなわち3次元形状構造と2次元画像特徴に基づくトークン削減戦略を提案する。
その結果,トランスフォーマーにおける高複雑さ相互作用に関与するトークンの数を大幅に削減し,計算コストを大幅に削減した形状回復の競合精度を実現した。
提案手法の有効性を検証し,手メッシュ回収における本手法の一般化可能性を示すため,幅広いベンチマーク実験を行った。
論文が公開されたら、私たちのコードは公開されます。
関連論文リスト
- Enhancing 3D Transformer Segmentation Model for Medical Image with Token-level Representation Learning [9.896550384001348]
本研究は、異なる拡張ビューからのトークン埋め込み間の合意を最大化するトークンレベルの表現学習損失を提案する。
また、入力ボリュームの1つの拡張ビューを回転・反転させ、後に特徴写像のトークンの順序を復元するシンプルな「回転・再保存」機構を発明する。
筆者らは2つの公開医療セグメント化データセットで事前トレーニングを行い、下流セグメンテーションタスクの結果は、他の最先端のプレトレーニング手法よりも、我々の方法の改善を示す。
論文 参考訳(メタデータ) (2024-08-12T01:49:13Z) - Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。
私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - PPT: Token Pruning and Pooling for Efficient Vision Transformers [7.792045532428676]
我々は新しいアクセラレーションフレームワーク、すなわちトークン・プルーニング・アンド・プール変換器(PPT)を提案する。
PPTは、トレーニング可能なパラメータを追加せずに、トークンプーリングとトークンプーリングの両方をViTsに統合する。
37%以上のFLOPを削減し、ImageNetデータセットの精度低下なしに、DeiT-Sのスループットを45%以上改善する。
論文 参考訳(メタデータ) (2023-10-03T05:55:11Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Dual Vision Transformer [114.1062057736447]
デュアルビジョントランス(Dual-ViT)という,コスト問題を緩和する新しいトランスフォーマーアーキテクチャを提案する。
新しいアーキテクチャでは、トークンベクトルをより効率的にグローバルなセマンティックスに圧縮し、複雑さの順序を減らし、重要なセマンティックパスが組み込まれている。
我々は、Dual-ViTが訓練の複雑さを低減したSOTAトランスフォーマーアーキテクチャよりも優れた精度を提供することを実証的に実証した。
論文 参考訳(メタデータ) (2022-07-11T16:03:44Z) - A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Sliced Recursive Transformer [23.899076070924153]
視覚変換器における再帰操作は、追加パラメータを伴わずにパラメータ利用を改善することができる。
我々のモデル Sliced Recursive Transformer (SReT) は、効率的な視覚変換のための様々な設計と互換性がある。
論文 参考訳(メタデータ) (2021-11-09T17:59:14Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - Incorporating Convolution Designs into Visual Transformers [24.562955955312187]
我々は、低レベル特徴抽出におけるCNNの利点、局所性の向上、長距離依存の確立におけるトランスフォーマーの利点を組み合わせた新しいtextbfConvolution-enhanced image Transformer (CeiT) を提案する。
ImageNetと7つの下流タスクの実験結果は、大量のトレーニングデータや追加のCNN教師を必要とすることなく、従来のトランスフォーマーや最先端CNNと比較してCeiTの有効性と一般化能力を示している。
論文 参考訳(メタデータ) (2021-03-22T13:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。