論文の概要: ConcatPlexer: Additional Dim1 Batching for Faster ViTs
- arxiv url: http://arxiv.org/abs/2308.11199v2
- Date: Wed, 31 Jan 2024 14:11:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 17:55:24.202340
- Title: ConcatPlexer: Additional Dim1 Batching for Faster ViTs
- Title(参考訳): ConcatPlexer: より高速なViTのための追加のDim1バッチ
- Authors: Donghoon Han, Seunghyeon Seo, Donghyeon Jeon, Jiho Jang, Chaerin Kong
and Nojun Kwak
- Abstract要約: 本稿では,Dim1ドメイン(結合)を付加した,効率的な視覚認識のための新しい手法を提案する。
まず、視覚モデルや画像多重化のためのDataMuxの単純適応を導入し、その弱点を克服するために新しい推論を考案する。
ConcatPlexerはImageNet1KとCIFAR100のデータセットで訓練され、それぞれ69.5%と83.4%の精度でVT-B/16よりも23.5%少ないGFLOPを達成した。
- 参考スコア(独自算出の注目度): 31.239412320401467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have demonstrated tremendous success not only in the natural
language processing (NLP) domain but also the field of computer vision,
igniting various creative approaches and applications. Yet, the superior
performance and modeling flexibility of transformers came with a severe
increase in computation costs, and hence several works have proposed methods to
reduce this burden. Inspired by a cost-cutting method originally proposed for
language models, Data Multiplexing (DataMUX), we propose a novel approach for
efficient visual recognition that employs additional dim1 batching (i.e.,
concatenation) that greatly improves the throughput with little compromise in
the accuracy. We first introduce a naive adaptation of DataMux for vision
models, Image Multiplexer, and devise novel components to overcome its
weaknesses, rendering our final model, ConcatPlexer, at the sweet spot between
inference speed and accuracy. The ConcatPlexer was trained on ImageNet1K and
CIFAR100 dataset and it achieved 23.5% less GFLOPs than ViT-B/16 with 69.5% and
83.4% validation accuracy, respectively.
- Abstract(参考訳): トランスフォーマーは自然言語処理(nlp)の領域だけでなく、コンピュータビジョンの分野においても大きな成功を収め、様々な創造的なアプローチや応用を無視している。
しかし、トランスフォーマの優れた性能とモデリングの柔軟性は計算コストの大幅な増加をもたらしたため、この負担を軽減する方法がいくつか提案されている。
データ多重化(data multiplexing, datamux)という言語モデルで当初提案されていたコスト削減手法に触発されて,dim1バッチ(すなわち結合)を付加し,精度を損なうことなくスループットを大幅に向上させる効率的な視覚認識のための新しい手法を提案する。
まず,視覚モデルに対するdatamuxのナイーブな適応,イメージ多重化,その弱点を克服するための新しいコンポーネントの考案,最終モデルであるconcatplexerを推論速度と精度の中間のスイートスポットに配置する。
ConcatPlexerはImageNet1KとCIFAR100データセットでトレーニングされ、それぞれ69.5%と83.4%の精度でVT-B/16よりも23.5%少ないGFLOPを達成した。
関連論文リスト
- Efficient Vision Transformer for Human Pose Estimation via Patch
Selection [1.450405446885067]
ビジョントランスフォーマー(ViT)はCNNに代わる有望な代替品として登場し、最先端のパフォーマンスを向上している。
本稿では,ViTの計算複雑性を低減するための3つの方法を提案する。
提案手法は,0%から3.5%の精度で,30%から44%の範囲で計算複雑性の大幅な低減を実現している。
論文 参考訳(メタデータ) (2023-06-07T08:02:17Z) - Joint Adaptive Representations for Image-Language Learning [59.40890927221377]
画像言語学習のためのレシピを提案し、より大きくて高価なものよりも優れたモデルを作成し、しばしば桁違いに大きなデータセットで訓練する。
我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。
たった4000万のトレーニング例と39のGFLOPで、私たちの軽量モデルは、2~20倍以上のFLOPの最先端モデルで、さらに大きなデータセットを使用して、1B近くのトレーニング例で何倍もパフォーマンスを上げています。
論文 参考訳(メタデータ) (2023-05-31T15:02:02Z) - Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design [84.34416126115732]
スケーリング法則は、最近、与えられた計算時間に最適なモデルサイズ(パラメータの数)を導出するために用いられる。
我々は、幅や深さなどの計算最適モデル形状を推測する手法を進化させ、改良し、視覚変換器でこれを実装した。
我々の形状最適化型視覚変換器SoViTは、同等の計算量で事前訓練されているにもかかわらず、サイズが2倍以上のモデルと競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T13:39:28Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T05:34:51Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - AxFormer: Accuracy-driven Approximation of Transformers for Faster,
Smaller and more Accurate NLP Models [4.247712017691596]
AxFormerは、特定の下流タスクのために最適化されたトランスフォーマーモデルを作成するために、精度駆動の近似を適用するフレームワークである。
実験の結果,AxFormerモデルの方が最大4.5%精度が高く,2.5倍高速で3.2倍小型であることがわかった。
論文 参考訳(メタデータ) (2020-10-07T23:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。