論文の概要: Fast-iTPN: Integrally Pre-Trained Transformer Pyramid Network with Token
Migration
- arxiv url: http://arxiv.org/abs/2211.12735v2
- Date: Fri, 5 Jan 2024 02:05:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 19:04:34.771430
- Title: Fast-iTPN: Integrally Pre-Trained Transformer Pyramid Network with Token
Migration
- Title(参考訳): Fast-iTPN:トークンマイグレーションによる統合事前学習型変圧器ピラミッドネットワーク
- Authors: Yunjie Tian, Lingxi Xie, Jihao Qiu, Jianbin Jiao, Yaowei Wang, Qi
Tian, Qixiang Ye
- Abstract要約: ITPNは2つの精巧な設計で生まれ、1)視覚変換器を用いた最初の事前訓練型特徴ピラミッド(ViT)である。
Fast-iTPNは推論手順を最大70%高速化でき、性能損失は無視できる。
- 参考スコア(独自算出の注目度): 138.24994198567794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose integrally pre-trained transformer pyramid network (iTPN), towards
jointly optimizing the network backbone and the neck, so that transfer gap
between representation models and downstream tasks is minimal. iTPN is born
with two elaborated designs: 1) The first pre-trained feature pyramid upon
vision transformer (ViT). 2) Multi-stage supervision to the feature pyramid
using masked feature modeling (MFM). iTPN is updated to Fast-iTPN, reducing
computational memory overhead and accelerating inference through two flexible
designs. 1) Token migration: dropping redundant tokens of the backbone while
replenishing them in the feature pyramid without attention operations. 2) Token
gathering: reducing computation cost caused by global attention by introducing
few gathering tokens. The base/large-level Fast-iTPN achieve 88.75%/89.5% top-1
accuracy on ImageNet-1K. With 1x training schedule using DINO, the
base/large-level Fast-iTPN achieves 58.4%/58.8% box AP on COCO object
detection, and a 57.5%/58.7% mIoU on ADE20K semantic segmentation using
MaskDINO. Fast-iTPN can accelerate the inference procedure by up to 70%, with
negligible performance loss, demonstrating the potential to be a powerful
backbone for downstream vision tasks. The code is available at:
github.com/sunsmarterjie/iTPN.
- Abstract(参考訳): 本稿では,ネットワークバックボーンとネックを共同で最適化し,表現モデルと下流タスク間の伝達ギャップを最小限に抑えるために,統合的に事前学習したトランスフォーマーピラミッドネットワーク(itpn)を提案する。
iTPNは2つの精巧なデザインで生まれました。
1)視覚変換器(ViT)による最初の事前訓練型特徴ピラミッド。
2)マスク付き特徴モデリング(MFM)による特徴ピラミッドの多段階監視
iTPNはFast-iTPNに更新され、計算メモリのオーバーヘッドを減らし、2つの柔軟な設計による推論を加速する。
1) トークン移行: 注意操作なしで機能ピラミッドに補充しながら、バックボーンの冗長トークンをドロップする。
2)トークン収集:少ない収集トークンを導入することにより,グローバルな注目による計算コストを低減する。
ベース/大型のFast-iTPNはImageNet-1Kで88.75%/89.5%のTop-1精度を達成した。
DINOを使用した1xトレーニングスケジュールでは、ベースレベルのFast-iTPNはCOCOオブジェクト検出で58.4%/58.8%、ADE20Kセマンティックセグメンテーションで57.5%/58.7%のmIoUを達成した。
Fast-iTPNは推論手順を最大70%高速化し、性能損失を無視し、下流の視覚タスクの強力なバックボーンになる可能性を示す。
コードは、github.com/sunsmarterjie/iTPNで入手できる。
関連論文リスト
- GTP-ViT: Efficient Vision Transformers via Graph-based Token Propagation [30.343504537684755]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの分野に革命をもたらしたが、リソースに制約のあるデバイスへの展開は依然として困難である。
ViTを高速化するために、トークンのプルーニングとトークンのマージアプローチが開発され、計算に関わるトークンの数を減らすことを目的としている。
本稿では,効率的なViTのためのモデル効率と情報保存のバランスをとることの課題を解決するために,グラフベースの新しいToken Propagation(GTP)手法を提案する。
論文 参考訳(メタデータ) (2023-11-06T11:14:19Z) - PPT: Token Pruning and Pooling for Efficient Vision Transformers [7.792045532428676]
我々は新しいアクセラレーションフレームワーク、すなわちトークン・プルーニング・アンド・プール変換器(PPT)を提案する。
PPTは、トレーニング可能なパラメータを追加せずに、トークンプーリングとトークンプーリングの両方をViTsに統合する。
37%以上のFLOPを削減し、ImageNetデータセットの精度低下なしに、DeiT-Sのスループットを45%以上改善する。
論文 参考訳(メタデータ) (2023-10-03T05:55:11Z) - Sparsifiner: Learning Sparse Instance-Dependent Attention for Efficient
Vision Transformers [34.19166698049552]
ビジョントランスフォーマー(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、パフォーマンス面での競争上の優位性を示している。
本稿では、軽量接続予測モジュールを考案し、インスタンス依存の注意パターンを学習するための新しいアプローチを提案する。
その結果,MHSAでは48%から69%のFLOPが減少し,精度は0.4%に低下した。
論文 参考訳(メタデータ) (2023-03-24T02:12:28Z) - Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文 参考訳(メタデータ) (2023-03-15T15:12:36Z) - FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。
入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。
ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2022-12-13T14:09:32Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z) - FATNN: Fast and Accurate Ternary Neural Networks [89.07796377047619]
Ternary Neural Networks (TNN) は、完全な精度のニューラルネットワークよりもはるかに高速で、電力効率が高いため、多くの注目を集めている。
そこで本研究では、3次内積の計算複雑性を2。
性能ギャップを軽減するために,実装に依存した3次量子化アルゴリズムを精巧に設計する。
論文 参考訳(メタデータ) (2020-08-12T04:26:18Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。