論文の概要: The Unreasonable Effectiveness of Fully-Connected Layers for Low-Data
Regimes
- arxiv url: http://arxiv.org/abs/2210.05657v2
- Date: Thu, 13 Oct 2022 06:32:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 11:27:09.100322
- Title: The Unreasonable Effectiveness of Fully-Connected Layers for Low-Data
Regimes
- Title(参考訳): 低データレジームのための完全連結層の有効性
- Authors: Peter Kocsis, Peter S\'uken\'ik, Guillem Bras\'o, Matthias
Nie{\ss}ner, Laura Leal-Taix\'e, Ismail Elezi
- Abstract要約: 少数のデータから一般化する枠組みを提案する。
完全に接続されたレイヤで最新のCNNを強化し、このアーキテクチャ変更が低データ体制にもたらす大きな影響を示します。
- 参考スコア(独自算出の注目度): 3.7189423451031356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional neural networks were the standard for solving many computer
vision tasks until recently, when Transformers of MLP-based architectures have
started to show competitive performance. These architectures typically have a
vast number of weights and need to be trained on massive datasets; hence, they
are not suitable for their use in low-data regimes. In this work, we propose a
simple yet effective framework to improve generalization from small amounts of
data. We augment modern CNNs with fully-connected (FC) layers and show the
massive impact this architectural change has in low-data regimes. We further
present an online joint knowledge-distillation method to utilize the extra FC
layers at train time but avoid them during test time. This allows us to improve
the generalization of a CNN-based model without any increase in the number of
weights at test time. We perform classification experiments for a large range
of network backbones and several standard datasets on supervised learning and
active learning. Our experiments significantly outperform the networks without
fully-connected layers, reaching a relative improvement of up to $16\%$
validation accuracy in the supervised setting without adding any extra
parameters during inference.
- Abstract(参考訳): 畳み込みニューラルネットワークは、近年、MLPベースのアーキテクチャのトランスフォーマーが競争力を発揮し始めるまで、多くのコンピュータビジョンタスクを解決する標準であった。
これらのアーキテクチャは通常、膨大な量の重みを持ち、巨大なデータセットでトレーニングする必要がある。
本稿では,少量データからの一般化を改善するための,単純かつ効果的なフレームワークを提案する。
我々は、cnnを完全接続(fc)層で拡張し、このアーキテクチャ変更が低データレジームに与える影響を示す。
さらに, 運転時に余分なfc層を利用するが, 試験中はそれを回避できるオンライン共同知識蒸留法を提案する。
これにより、テスト時に重みを増加させることなく、cnnベースのモデルの一般化を改善できます。
我々は、広範囲のネットワークバックボーンと、教師付き学習とアクティブ学習に関する標準データセットの分類実験を行う。
提案実験は,全接続層を含まないネットワークを著しく上回り,推論中に余分なパラメータを加えることなく,教師付き設定において最大16\%の検証精度が向上した。
関連論文リスト
- NIDS Neural Networks Using Sliding Time Window Data Processing with Trainable Activations and its Generalization Capability [0.0]
本稿では,ネットワーク侵入検知システム(NIDS)のためのニューラルネットワークについて述べる。
ディープパケットインスペクションに頼らず、ほとんどのNIDSデータセットで見つからず、従来のフローコレクタから簡単に取得できる11の機能しか必要としない。
報告されたトレーニング精度は、提案手法の99%を超え、ニューラルネットワークの入力特性は20に満たない。
論文 参考訳(メタデータ) (2024-10-24T11:36:19Z) - Multi-Scale Convolutional LSTM with Transfer Learning for Anomaly Detection in Cellular Networks [1.1432909951914676]
本研究では,トランスファーラーニング(TL)を用いたマルチスケール畳み込みLSTMによるセルネットワークの異常検出手法を提案する。
モデルは最初、公開データセットを使用してスクラッチからトレーニングされ、典型的なネットワーク動作を学習する。
我々は,スクラッチから訓練したモデルの性能と,TLを用いた微調整モデルの性能を比較した。
論文 参考訳(メタデータ) (2024-09-30T17:51:54Z) - Relearning Forgotten Knowledge: on Forgetting, Overfit and Training-Free
Ensembles of DNNs [9.010643838773477]
本稿では,検証データ上での深層モデルの忘れ度をモニタする,過剰適合度定量化のための新しいスコアを提案する。
オーバーフィットは検証精度を低下させることなく発生しうることを示し,従来よりも一般的である可能性が示唆された。
我々は,1つのネットワークのトレーニング履歴のみに基づいて,新たなアンサンブル法を構築するために,我々の観測結果を用いて,トレーニング時間に追加のコストを要さず,大幅な改善を実現する。
論文 参考訳(メタデータ) (2023-10-17T09:22:22Z) - Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。
NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。
NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文 参考訳(メタデータ) (2022-10-14T18:00:07Z) - Efficient Augmentation for Imbalanced Deep Learning [8.38844520504124]
本研究では、畳み込みニューラルネットワークの内部表現である不均衡画像データについて検討する。
モデルの特徴埋め込みとテストセットの一般化ギャップを測定し、マイノリティクラスではそのギャップが広いことを示す。
この洞察により、不均衡なデータのための効率的な3相CNNトレーニングフレームワークを設計できる。
論文 参考訳(メタデータ) (2022-07-13T09:43:17Z) - Hybridization of Capsule and LSTM Networks for unsupervised anomaly
detection on multivariate data [0.0]
本稿では,Long-Short-Term-Memory(LSTM)とCapsule Networksを1つのネットワークに結合した新しいNNアーキテクチャを提案する。
提案手法は教師なし学習手法を用いて大量のラベル付きトレーニングデータを見つける際の問題を克服する。
論文 参考訳(メタデータ) (2022-02-11T10:33:53Z) - On Robustness and Transferability of Convolutional Neural Networks [147.71743081671508]
現代の深層畳み込みネットワーク(CNN)は、分散シフトの下で一般化しないとしてしばしば批判される。
現代画像分類CNNにおける分布外と転送性能の相互作用を初めて検討した。
トレーニングセットとモデルサイズを増大させることで、分散シフトロバスト性が著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-16T18:39:04Z) - RIFLE: Backpropagation in Depth for Deep Transfer Learning through
Re-Initializing the Fully-connected LayEr [60.07531696857743]
事前訓練されたモデルを用いたディープ畳み込みニューラルネットワーク(CNN)の微調整は、より大きなデータセットから学習した知識をターゲットタスクに転送するのに役立つ。
転送学習環境におけるバックプロパゲーションを深める戦略であるRIFLEを提案する。
RIFLEは、深いCNN層の重み付けに意味のあるアップデートをもたらし、低レベルの機能学習を改善する。
論文 参考訳(メタデータ) (2020-07-07T11:27:43Z) - Temporal Calibrated Regularization for Robust Noisy Label Learning [60.90967240168525]
ディープニューラルネットワーク(DNN)は、大規模な注釈付きデータセットの助けを借りて、多くのタスクで大きな成功を収めている。
しかし、大規模なデータのラベル付けは非常にコストがかかりエラーが発生しやすいため、アノテーションの品質を保証することは困難である。
本稿では,従来のラベルと予測を併用したTCR(Temporal Calibrated Regularization)を提案する。
論文 参考訳(メタデータ) (2020-07-01T04:48:49Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。