論文の概要: Integrally Pre-Trained Transformer Pyramid Networks
- arxiv url: http://arxiv.org/abs/2211.12735v1
- Date: Wed, 23 Nov 2022 06:56:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 13:54:12.539593
- Title: Integrally Pre-Trained Transformer Pyramid Networks
- Title(参考訳): 統合事前学習型変圧器ピラミッドネットワーク
- Authors: Yunjie Tian, Lingxi Xie, Zhaozhi Wang, Longhui Wei, Xiaopeng Zhang,
Jianbin Jiao, Yaowei Wang, Qi Tian, Qixiang Ye
- Abstract要約: 本稿では、マスク付き画像モデリング(MIM)に基づく統合事前学習フレームワークを提案する。
我々は,前訓練段階に特徴ピラミッドを挿入することにより,再建と認識のネックを統一する。
統合的に事前訓練されたトランスフォーマーピラミッドネットワーク(iTPN)と呼ばれる事前訓練されたモデルは、視覚認識のための強力な基礎モデルとして機能する。
- 参考スコア(独自算出の注目度): 132.8947768370081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present an integral pre-training framework based on masked
image modeling (MIM). We advocate for pre-training the backbone and neck
jointly so that the transfer gap between MIM and downstream recognition tasks
is minimal. We make two technical contributions. First, we unify the
reconstruction and recognition necks by inserting a feature pyramid into the
pre-training stage. Second, we complement mask image modeling (MIM) with masked
feature modeling (MFM) that offers multi-stage supervision to the feature
pyramid. The pre-trained models, termed integrally pre-trained transformer
pyramid networks (iTPNs), serve as powerful foundation models for visual
recognition. In particular, the base/large-level iTPN achieves an 86.2%/87.8%
top-1 accuracy on ImageNet-1K, a 53.2%/55.6% box AP on COCO object detection
with 1x training schedule using Mask-RCNN, and a 54.7%/57.7% mIoU on ADE20K
semantic segmentation using UPerHead -- all these results set new records. Our
work inspires the community to work on unifying upstream pre-training and
downstream fine-tuning tasks. Code and the pre-trained models will be released
at https://github.com/sunsmarterjie/iTPN.
- Abstract(参考訳): 本稿では,マスク画像モデリング(MIM)に基づく統合事前学習フレームワークを提案する。
我々は,MIMと下流認識タスク間の伝達ギャップを最小限に抑えるために,バックボーンとネックを共同で事前訓練することを提唱する。
私たちは2つの技術貢献をします。
まず,事前学習段階に特徴ピラミッドを挿入することで,復元と認識の首を統一する。
第二に、マスク画像モデリング(MIM)とマスク特徴モデリング(MFM)を補完し、特徴ピラミッドの多段階監視を行う。
統合的に事前訓練されたトランスフォーマーピラミッドネットワーク(iTPN)と呼ばれる事前学習モデルは、視覚認識のための強力な基礎モデルとして機能する。
特に、ベースレベルのiTPNはImageNet-1Kで86.2%/87.8%、Mask-RCNNで1xのトレーニングスケジュールでCOCOオブジェクト検出で53.2%/55.6%、UPerHeadでADE20Kセマンティックセグメンテーションで54.7%/57.7% mIoUを達成した。
私たちの作業は、上流の事前トレーニングと下流の微調整タスクの統合に取り組むコミュニティに刺激を与えます。
コードと事前トレーニングされたモデルはhttps://github.com/sunsmarterjie/iTPNでリリースされる。
関連論文リスト
- GTP-ViT: Efficient Vision Transformers via Graph-based Token Propagation [30.343504537684755]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの分野に革命をもたらしたが、リソースに制約のあるデバイスへの展開は依然として困難である。
ViTを高速化するために、トークンのプルーニングとトークンのマージアプローチが開発され、計算に関わるトークンの数を減らすことを目的としている。
本稿では,効率的なViTのためのモデル効率と情報保存のバランスをとることの課題を解決するために,グラフベースの新しいToken Propagation(GTP)手法を提案する。
論文 参考訳(メタデータ) (2023-11-06T11:14:19Z) - PPT: Token Pruning and Pooling for Efficient Vision Transformers [7.792045532428676]
我々は新しいアクセラレーションフレームワーク、すなわちトークン・プルーニング・アンド・プール変換器(PPT)を提案する。
PPTは、トレーニング可能なパラメータを追加せずに、トークンプーリングとトークンプーリングの両方をViTsに統合する。
37%以上のFLOPを削減し、ImageNetデータセットの精度低下なしに、DeiT-Sのスループットを45%以上改善する。
論文 参考訳(メタデータ) (2023-10-03T05:55:11Z) - Sparsifiner: Learning Sparse Instance-Dependent Attention for Efficient
Vision Transformers [34.19166698049552]
ビジョントランスフォーマー(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、パフォーマンス面での競争上の優位性を示している。
本稿では、軽量接続予測モジュールを考案し、インスタンス依存の注意パターンを学習するための新しいアプローチを提案する。
その結果,MHSAでは48%から69%のFLOPが減少し,精度は0.4%に低下した。
論文 参考訳(メタデータ) (2023-03-24T02:12:28Z) - Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文 参考訳(メタデータ) (2023-03-15T15:12:36Z) - FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。
入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。
ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2022-12-13T14:09:32Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z) - FATNN: Fast and Accurate Ternary Neural Networks [89.07796377047619]
Ternary Neural Networks (TNN) は、完全な精度のニューラルネットワークよりもはるかに高速で、電力効率が高いため、多くの注目を集めている。
そこで本研究では、3次内積の計算複雑性を2。
性能ギャップを軽減するために,実装に依存した3次量子化アルゴリズムを精巧に設計する。
論文 参考訳(メタデータ) (2020-08-12T04:26:18Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。