論文の概要: Memory Efficient Adaptive Attention For Multiple Domain Learning
- arxiv url: http://arxiv.org/abs/2110.10969v1
- Date: Thu, 21 Oct 2021 08:33:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 16:18:52.479055
- Title: Memory Efficient Adaptive Attention For Multiple Domain Learning
- Title(参考訳): 複数のドメイン学習のためのメモリ効率の良い適応注意
- Authors: Himanshu Pradeep Aswani, Abhiraj Sunil Kanse, Shubhang Bhatnagar, Amit
Sethi
- Abstract要約: 新しいドメインでスクラッチからCNNを訓練するには、通常、大量のラベル付き画像と計算が必要である。
これらの要求を減らす方法の1つは、CNNアーキテクチャをモジュール化し、重いモジュールの重みを凍結することである。
近年の研究では、訓練可能なパラメータの数を削減できる代替のモジュラーアーキテクチャとスキームが提案されている。
- 参考スコア(独自算出の注目度): 3.8907870897999355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training CNNs from scratch on new domains typically demands large numbers of
labeled images and computations, which is not suitable for low-power hardware.
One way to reduce these requirements is to modularize the CNN architecture and
freeze the weights of the heavier modules, that is, the lower layers after
pre-training. Recent studies have proposed alternative modular architectures
and schemes that lead to a reduction in the number of trainable parameters
needed to match the accuracy of fully fine-tuned CNNs on new domains. Our work
suggests that a further reduction in the number of trainable parameters by an
order of magnitude is possible. Furthermore, we propose that new modularization
techniques for multiple domain learning should also be compared on other
realistic metrics, such as the number of interconnections needed between the
fixed and trainable modules, the number of training samples needed, the order
of computations required and the robustness to partial mislabeling of the
training data. On all of these criteria, the proposed architecture demonstrates
advantages over or matches the current state-of-the-art.
- Abstract(参考訳): 新しいドメインでスクラッチからCNNを訓練するには、通常、大量のラベル付きイメージと計算が必要であり、低消費電力のハードウェアには適さない。
これらの要求を減らす方法の1つは、CNNアーキテクチャをモジュール化し、重いモジュール、すなわち事前トレーニング後の下位レイヤの重量を凍結することである。
近年の研究では、新しいドメインで完全に調整されたCNNの精度に適合する訓練可能なパラメータの数を削減できる代替のモジュラーアーキテクチャとスキームが提案されている。
我々の研究は、トレーニング可能なパラメータの桁数によるさらなる削減が可能であることを示唆している。
さらに, 固定モジュールとトレーニング可能なモジュール間の相互接続数, 必要なトレーニングサンプル数, 計算の順序, トレーニングデータの部分的ミスラベル化に対する堅牢性など, 複数のドメイン学習のための新しいモジュール化手法を, その他の現実的な指標と比較することを提案する。
これらすべての基準に基づいて、提案されたアーキテクチャは現在の最先端技術よりも優位性を示す。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - SortedNet: A Scalable and Generalized Framework for Training Modular Deep Neural Networks [30.069353400127046]
我々は、ディープニューラルネットワーク(DNN)の固有のモジュラリティを活用するためにSortedNetを提案する。
SortedNetは、メインモデルのトレーニングと同時にサブモデルのトレーニングを可能にする。
一度に160台のサブモデルを訓練でき、オリジナルのモデルの性能の少なくとも96%を達成できる。
論文 参考訳(メタデータ) (2023-09-01T05:12:25Z) - Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。
我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。
提案するフレームワークは,合理的な性能で高い効率性を示す。
論文 参考訳(メタデータ) (2023-04-20T07:21:32Z) - Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。
NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。
NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文 参考訳(メタデータ) (2022-10-14T18:00:07Z) - Continual Learning with Transformers for Image Classification [12.028617058465333]
コンピュータビジョンでは、ニューラルネットワークモデルは、過去に何を学んだかを忘れずに、新しい概念を継続的に学習する。
本研究では,適応型適応器の蒸留法 (ADA) を開発した。
本手法は,モデルを再学習することなく,優れた予測性能を維持することを実証的に示す。
論文 参考訳(メタデータ) (2022-06-28T15:30:10Z) - Compositional Models: Multi-Task Learning and Knowledge Transfer with
Modular Networks [13.308477955656592]
本稿では,ResNetの等尺バージョンに基づくモジュールネットワーク学習手法を提案する。
本手法では,モジュールを繰り返し呼び出すことができ,新しいタスクへの知識伝達を可能にする。
本手法は,マルチタスク学習,移動学習,ドメイン適応の場合に,モジュールの解釈可能な自己組織化につながることを示す。
論文 参考訳(メタデータ) (2021-07-23T00:05:55Z) - Differentiable Architecture Pruning for Transfer Learning [6.935731409563879]
本研究では,与えられた大規模モデルからサブアーキテクチャを抽出するための勾配に基づくアプローチを提案する。
我々のアーキテクチャ・プルーニング・スキームは、異なるタスクを解くために再訓練を成功させることができるトランスファー可能な新しい構造を生成する。
理論的収束保証を提供し、実データ上で提案した伝達学習戦略を検証する。
論文 参考訳(メタデータ) (2021-07-07T17:44:59Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Adaptive Quantization of Model Updates for Communication-Efficient
Federated Learning [75.45968495410047]
クライアントノードと中央集約サーバ間のモデル更新の通信は、連合学習において大きなボトルネックとなる。
グラディエント量子化(Gradient Quantization)は、各モデル更新間の通信に必要なビット数を削減する効果的な方法である。
通信効率と低エラーフロアを実現することを目的としたAdaFLと呼ばれる適応量子化戦略を提案する。
論文 参考訳(メタデータ) (2021-02-08T19:14:21Z) - Regularized Adaptation for Stable and Efficient Continuous-Level
Learning on Image Processing Networks [7.730087303035803]
フィルタ遷移ネットワーク(FTN)を用いた新しい連続レベル学習フレームワークを提案する。
FTNは、新しいレベルに容易に適応できる非線形モジュールであり、望ましくない副作用を防ぐために正規化されている。
様々な画像処理結果から,FTNの性能は適応性および適応性において安定であることが示唆された。
論文 参考訳(メタデータ) (2020-03-11T07:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。