論文の概要: Token Merging: Your ViT But Faster
- arxiv url: http://arxiv.org/abs/2210.09461v1
- Date: Mon, 17 Oct 2022 22:23:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 14:47:35.677046
- Title: Token Merging: Your ViT But Faster
- Title(参考訳): トークンマージ:あなたのvitですが、より速く
- Authors: Daniel Bolya, Cheng-Yang Fu, Xiaoliang Dai, Peizhao Zhang, Christoph
Feichtenhofer, Judy Hoffman
- Abstract要約: ToMeは、一般および軽量マッチングアルゴリズムを用いて、変圧器に類似したトークンを徐々に組み合わせている。
市販のToMeは、最先端のViT-L @ 512とViT-H @ 518のスループットを2倍にすることができる。
ToMeによるトレーニングはさらに精度低下を最小化し、オーディオ上のVT-Bのスループットは0.4%のmAPダウンで2倍になる。
- 参考スコア(独自算出の注目度): 33.61038274945422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Token Merging (ToMe), a simple method to increase the throughput
of existing ViT models without needing to train. ToMe gradually combines
similar tokens in a transformer using a general and light-weight matching
algorithm that is as fast as pruning while being more accurate. Off-the-shelf,
ToMe can 2x the throughput of state-of-the-art ViT-L @ 512 and ViT-H @ 518
models on images and 2.2x the throughput of ViT-L on video with only a 0.2-0.3%
accuracy drop in each case. ToMe can also easily be applied during training,
improving in practice training speed up to 2x for MAE fine-tuning on video.
Training with ToMe further minimizes accuracy drop, leading to 2x the
throughput of ViT-B on audio for only a 0.4% mAP drop. Qualitatively, we find
that ToMe merges object parts into one token, even over multiple frames of
video. Overall, ToMe's accuracy and speed are competitive with state-of-the-art
on images, video, and audio.
- Abstract(参考訳): Token Merging(ToMe)は、既存のViTモデルのスループットをトレーニングなしで向上するシンプルな方法である。
tomeは、より正確でありながらプラニングと同じくらい高速で軽量なマッチングアルゴリズムを使用して、変圧器の類似トークンを徐々に組み合わせている。
ToMeは、画像上の最先端のViT-L @ 512とViT-H @ 518のスループットを2倍、ビデオ上のViT-Lのスループットを0.2-0.3%の精度で2倍にすることができる。
ToMeはトレーニング中に簡単に適用でき、ビデオのMAE微調整の練習速度を最大2倍に向上できる。
ToMeによるトレーニングはさらに精度低下を最小化し、オーディオ上のVT-Bのスループットは0.4%のmAPダウンで2倍になる。
定性的には、tomeはオブジェクトの一部をひとつのトークンにマージする。
全体的に、tomeの精度とスピードは、画像、ビデオ、オーディオの最先端技術と競合する。
関連論文リスト
- Vote&Mix: Plug-and-Play Token Reduction for Efficient Vision Transformer [17.724361544581527]
Vote&Mix (textbfVoMix) は、既製のViTモデルに容易に適用することができる。
VoMixは、層単位でのトークン類似性投票機構を通じて、高い均一性を持つトークンを識別することで、ViTの計算冗長性に取り組む。
実験では、VoMixは画像とビデオの両方でViTの速度精度のトレードオフを大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-08-30T07:48:05Z) - SkipViT: Speeding Up Vision Transformers with a Token-Level Skip
Connection [3.960622297616708]
本稿では、異なる低コストの計算経路を分離して送信することで、重要でないトークン間の不要な相互作用量を最適化する手法を提案する。
スクラッチからViT-smallをトレーニングする実験結果から,SkipViTはトークンの55%を効果的に削減でき,トレーニングスループットは13%以上向上した。
論文 参考訳(メタデータ) (2024-01-27T04:24:49Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and
Favorable Transferability For ViTs [79.54107547233625]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高精度かつ高速な推論速度を実現するViTのジョイント圧縮手法を提案する。
提案手法は,様々な ViT にまたがって最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z) - Masked Image Residual Learning for Scaling Deeper Vision Transformers [37.313915004909184]
我々は,より深いViTの学習を容易にするために,Masked Image Residual Learning (MIRL)と呼ばれる自己教師型学習フレームワークを導入する。
MIRLは劣化問題を著しく軽減し、ViTを深さに沿ってスケーリングすることがパフォーマンス向上の有望な方向となる。
事前トレーニング時間が少ないため、MIRLは他のアプローチと比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-09-25T13:45:28Z) - UniFormerV2: Spatiotemporal Learning by Arming Image ViTs with Video
UniFormer [63.53290944664774]
ViT(Vision Transformers)は、長期ビデオ依存を自己注意で学習する能力を示している。
UniFormerは、コンボリューションと自己アテンションをトランスフォーマーフォーマットのリレーションアグリゲータとして統一することで、この問題を緩和した。
そこで本稿では,UniFormerの設計を効率よく行うことで,ビデオネットワークの強力なファミリーを構築するための汎用パラダイムを提案する。
論文 参考訳(メタデータ) (2022-11-17T14:17:40Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。