論文の概要: Local Learning on Transformers via Feature Reconstruction
- arxiv url: http://arxiv.org/abs/2212.14215v1
- Date: Thu, 29 Dec 2022 08:25:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 16:39:58.020546
- Title: Local Learning on Transformers via Feature Reconstruction
- Title(参考訳): 特徴再構成による変圧器の局所学習
- Authors: Priyank Pathak, Jingwei Zhang, Dimitris Samaras
- Abstract要約: そこで我々は,各ローカルモジュールに対して,画像全体を再構成する代わりに,入力機能を再構築する機構を提案する。
我々は,Swin-Tiny上の4つの一般的なデータセットと3つの一般的なデコーダ構造に対するアプローチを評価した。
E2Eアプローチと比較して、ネットワークを2つのモジュールに分割する場合、GPUメモリを36%削減し、ネットワークを4つのモジュールに分割する場合、GPUメモリを45%削減する必要があります。
- 参考スコア(独自算出の注目度): 33.63830170634818
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Transformers are becoming increasingly popular due to their superior
performance over conventional convolutional neural networks(CNNs). However,
transformers usually require a much larger amount of memory to train than CNNs,
which prevents their application in many low resource settings. Local learning,
which divides the network into several distinct modules and trains them
individually, is a promising alternative to the end-to-end (E2E) training
approach to reduce the amount of memory for training and to increase
parallelism. This paper is the first to apply Local Learning on transformers
for this purpose. The standard CNN-based local learning method, InfoPro [32],
reconstructs the input images for each module in a CNN. However, reconstructing
the entire image does not generalize well. In this paper, we propose a new
mechanism for each local module, where instead of reconstructing the entire
image, we reconstruct its input features, generated from previous modules. We
evaluate our approach on 4 commonly used datasets and 3 commonly used decoder
structures on Swin-Tiny. The experiments show that our approach outperforms
InfoPro-Transformer, the InfoPro with Transfomer backbone we introduced, by at
up to 0.58% on CIFAR-10, CIFAR-100, STL-10 and SVHN datasets, while using up to
12% less memory. Compared to the E2E approach, we require 36% less GPU memory
when the network is divided into 2 modules and 45% less GPU memory when the
network is divided into 4 modules.
- Abstract(参考訳): 従来の畳み込みニューラルネットワーク(CNN)よりも優れた性能のため、トランスフォーマーの人気が高まっている。
しかし、トランスフォーマーは通常、cnnよりも多くのメモリを必要とするため、多くの低リソース設定でのアプリケーション実行が妨げられる。
ネットワークを複数のモジュールに分割して個別にトレーニングするローカルラーニングは、トレーニング用メモリの削減と並列性の向上を目的として、エンドツーエンド(E2E)トレーニングアプローチに代わる有望な手段である。
本論文は、トランスフォーマーに局所学習を適用した最初の事例である。
標準CNNベースのローカル学習手法であるInfoPro[32]は、CNNの各モジュールの入力画像を再構成する。
しかし、全体像の復元は一般的ではない。
本稿では,各ローカルモジュールに対して,画像全体を再構成する代わりに,以前のモジュールから生成された入力機能を再構成する機構を提案する。
我々は,Swin-Tiny上の4つの一般的なデータセットと3つの一般的なデコーダ構造に対するアプローチを評価した。
CIFAR-10, CIFAR-100, STL-10, SVHNデータセットで最大0.58%, 最大12%のメモリ使用量で, InfoPro-TransformerとTransfomerのバックボーンを備えたInfoProを比較検討した。
E2Eアプローチと比較して、ネットワークを2つのモジュールに分割する場合36%、ネットワークを4つのモジュールに分割する場合45%のGPUメモリを必要とする。
関連論文リスト
- Degradation-Aware Self-Attention Based Transformer for Blind Image
Super-Resolution [23.336576280389608]
本稿では,入力画像の劣化表現を未知の雑音で学習する自己認識型トランスフォーマモデルを提案する。
提案したモデルを,テスト用の大規模ベンチマークデータセットに適用し,最先端のパフォーマンスを実現する。
提案手法では,Urban100データセットのPSNRが32.43dB,DASRより0.94dB,KDSRより26.62dB,KDSRより0.26dB向上した。
論文 参考訳(メタデータ) (2023-10-06T11:52:31Z) - Reversible Vision Transformers [74.3500977090597]
Reversible Vision Transformersは、視覚認識のためのメモリ効率の良いアーキテクチャである。
我々は2つの人気モデル、すなわちビジョン変換器とマルチスケールビジョン変換器を可逆的変種に適用する。
より深いモデルでは、アクティベーションを再計算する際の計算負荷が過大評価されている。
論文 参考訳(メタデータ) (2023-02-09T18:59:54Z) - Transformer-Guided Convolutional Neural Network for Cross-View
Geolocalization [20.435023745201878]
本稿ではトランスフォーマー誘導型畳み込みニューラルネットワーク(TransGCNN)アーキテクチャを提案する。
我々のTransGCNNは、入力画像からCNNのバックボーン抽出特徴マップと、グローバルコンテキストをモデル化するTransformerヘッドで構成される。
CVUSAとCVACT_valでそれぞれ94.12%,84.92%の精度を達成した。
論文 参考訳(メタデータ) (2022-04-21T08:46:41Z) - FQ-ViT: Fully Quantized Vision Transformer without Retraining [13.82845665713633]
本稿では,量子変換器の性能劣化と推論の複雑さを低減するための系統的手法を提案する。
完全に量子化された視覚変換器上で、我々は初めて精度の劣化(1%)を達成した。
論文 参考訳(メタデータ) (2021-11-27T06:20:53Z) - Investigating Transfer Learning Capabilities of Vision Transformers and
CNNs by Fine-Tuning a Single Trainable Block [0.0]
トランスフォーマーベースのアーキテクチャは、CNNアーキテクチャによる最先端のセットを精度で上回っているが、スクラッチからトレーニングするには計算コストが非常に高い。
転送学習能力について検討し、CNNと比較し、小型データを用いた実世界の問題に適用した場合に、どのアーキテクチャが優れているかを理解する。
変換器をベースとしたアーキテクチャは,CNNよりも高い精度を実現するだけでなく,パラメータの約4倍の精度で実現している。
論文 参考訳(メタデータ) (2021-10-11T13:43:03Z) - CMT: Convolutional Neural Networks Meet Vision Transformers [68.10025999594883]
画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
論文 参考訳(メタデータ) (2021-07-13T17:47:19Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z) - Improved Residual Networks for Image and Video Recognition [98.10703825716142]
ResNets(Residual Networks)は、CNN(Convolutional Neural Network)アーキテクチャの強力なタイプである。
ベースライン上での精度と学習収束性を一貫した改善を示す。
提案手法では,高度に深いネットワークをトレーニングできるが,ベースラインは厳密な最適化問題を示す。
論文 参考訳(メタデータ) (2020-04-10T11:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。