論文の概要: Local Learning on Transformers via Feature Reconstruction
- arxiv url: http://arxiv.org/abs/2212.14215v1
- Date: Thu, 29 Dec 2022 08:25:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 16:39:58.020546
- Title: Local Learning on Transformers via Feature Reconstruction
- Title(参考訳): 特徴再構成による変圧器の局所学習
- Authors: Priyank Pathak, Jingwei Zhang, Dimitris Samaras
- Abstract要約: そこで我々は,各ローカルモジュールに対して,画像全体を再構成する代わりに,入力機能を再構築する機構を提案する。
我々は,Swin-Tiny上の4つの一般的なデータセットと3つの一般的なデコーダ構造に対するアプローチを評価した。
E2Eアプローチと比較して、ネットワークを2つのモジュールに分割する場合、GPUメモリを36%削減し、ネットワークを4つのモジュールに分割する場合、GPUメモリを45%削減する必要があります。
- 参考スコア(独自算出の注目度): 33.63830170634818
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Transformers are becoming increasingly popular due to their superior
performance over conventional convolutional neural networks(CNNs). However,
transformers usually require a much larger amount of memory to train than CNNs,
which prevents their application in many low resource settings. Local learning,
which divides the network into several distinct modules and trains them
individually, is a promising alternative to the end-to-end (E2E) training
approach to reduce the amount of memory for training and to increase
parallelism. This paper is the first to apply Local Learning on transformers
for this purpose. The standard CNN-based local learning method, InfoPro [32],
reconstructs the input images for each module in a CNN. However, reconstructing
the entire image does not generalize well. In this paper, we propose a new
mechanism for each local module, where instead of reconstructing the entire
image, we reconstruct its input features, generated from previous modules. We
evaluate our approach on 4 commonly used datasets and 3 commonly used decoder
structures on Swin-Tiny. The experiments show that our approach outperforms
InfoPro-Transformer, the InfoPro with Transfomer backbone we introduced, by at
up to 0.58% on CIFAR-10, CIFAR-100, STL-10 and SVHN datasets, while using up to
12% less memory. Compared to the E2E approach, we require 36% less GPU memory
when the network is divided into 2 modules and 45% less GPU memory when the
network is divided into 4 modules.
- Abstract(参考訳): 従来の畳み込みニューラルネットワーク(CNN)よりも優れた性能のため、トランスフォーマーの人気が高まっている。
しかし、トランスフォーマーは通常、cnnよりも多くのメモリを必要とするため、多くの低リソース設定でのアプリケーション実行が妨げられる。
ネットワークを複数のモジュールに分割して個別にトレーニングするローカルラーニングは、トレーニング用メモリの削減と並列性の向上を目的として、エンドツーエンド(E2E)トレーニングアプローチに代わる有望な手段である。
本論文は、トランスフォーマーに局所学習を適用した最初の事例である。
標準CNNベースのローカル学習手法であるInfoPro[32]は、CNNの各モジュールの入力画像を再構成する。
しかし、全体像の復元は一般的ではない。
本稿では,各ローカルモジュールに対して,画像全体を再構成する代わりに,以前のモジュールから生成された入力機能を再構成する機構を提案する。
我々は,Swin-Tiny上の4つの一般的なデータセットと3つの一般的なデコーダ構造に対するアプローチを評価した。
CIFAR-10, CIFAR-100, STL-10, SVHNデータセットで最大0.58%, 最大12%のメモリ使用量で, InfoPro-TransformerとTransfomerのバックボーンを備えたInfoProを比較検討した。
E2Eアプローチと比較して、ネットワークを2つのモジュールに分割する場合36%、ネットワークを4つのモジュールに分割する場合45%のGPUメモリを必要とする。
関連論文リスト
- Puppet-CNN: Input-Adaptive Convolutional Neural Networks with Model Compression using Ordinary Differential Equation [5.453850739960517]
我々は2つのモジュールを含む新しいCNNフレームワークを$textitPuppet-CNN$として提案する。
パペットモジュールは、他の作業と同じように入力データを処理するために使用されるCNNモデルである。
人形モジュール内でカーネルパラメータを繰り返し生成することにより、異なる畳み込み層のカーネル間の依存を利用してCNNモデルのサイズを大幅に削減することができる。
論文 参考訳(メタデータ) (2024-11-19T21:44:21Z) - Depth-Wise Convolutions in Vision Transformers for Efficient Training on Small Datasets [11.95214938154427]
Vision Transformer (ViT)は、イメージをパッチに分割することで、グローバルな情報をキャプチャする。
ViTは、画像やビデオデータセットのトレーニング中に誘導バイアスを欠く。
本稿では,ViTモデルのショートカットとして,軽量なDepth-Wise Convolutionモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-28T04:23:40Z) - Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。
本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。
Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-22T19:45:01Z) - Reversible Vision Transformers [74.3500977090597]
Reversible Vision Transformersは、視覚認識のためのメモリ効率の良いアーキテクチャである。
我々は2つの人気モデル、すなわちビジョン変換器とマルチスケールビジョン変換器を可逆的変種に適用する。
より深いモデルでは、アクティベーションを再計算する際の計算負荷が過大評価されている。
論文 参考訳(メタデータ) (2023-02-09T18:59:54Z) - FQ-ViT: Fully Quantized Vision Transformer without Retraining [13.82845665713633]
本稿では,量子変換器の性能劣化と推論の複雑さを低減するための系統的手法を提案する。
完全に量子化された視覚変換器上で、我々は初めて精度の劣化(1%)を達成した。
論文 参考訳(メタデータ) (2021-11-27T06:20:53Z) - Investigating Transfer Learning Capabilities of Vision Transformers and
CNNs by Fine-Tuning a Single Trainable Block [0.0]
トランスフォーマーベースのアーキテクチャは、CNNアーキテクチャによる最先端のセットを精度で上回っているが、スクラッチからトレーニングするには計算コストが非常に高い。
転送学習能力について検討し、CNNと比較し、小型データを用いた実世界の問題に適用した場合に、どのアーキテクチャが優れているかを理解する。
変換器をベースとしたアーキテクチャは,CNNよりも高い精度を実現するだけでなく,パラメータの約4倍の精度で実現している。
論文 参考訳(メタデータ) (2021-10-11T13:43:03Z) - CMT: Convolutional Neural Networks Meet Vision Transformers [68.10025999594883]
画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
論文 参考訳(メタデータ) (2021-07-13T17:47:19Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。