論文の概要: Revisiting Neural Networks for Continual Learning: An Architectural Perspective
- arxiv url: http://arxiv.org/abs/2404.14829v3
- Date: Sun, 28 Apr 2024 12:08:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 20:29:37.017602
- Title: Revisiting Neural Networks for Continual Learning: An Architectural Perspective
- Title(参考訳): 継続的学習のためのニューラルネットワークの再検討:アーキテクチャ的視点
- Authors: Aojun Lu, Tao Feng, Hangjie Yuan, Xiaotian Song, Yanan Sun,
- Abstract要約: 本稿では,ネットワークアーキテクチャ設計と連続学習(CL)のギャップを埋めることを目的とする。
まず、アーキテクチャ設計がCLにどのように影響するかを体系的に探求することで洞察を得る。
本稿では,CLフレンドリなアーキテクチャ,すなわちAlexNet/ResNetをAlexAC/ResACに書き換える上で,シンプルで効果的なArchCraft手法を提案する。
- 参考スコア(独自算出の注目度): 9.477667054965782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efforts to overcome catastrophic forgetting have primarily centered around developing more effective Continual Learning (CL) methods. In contrast, less attention was devoted to analyzing the role of network architecture design (e.g., network depth, width, and components) in contributing to CL. This paper seeks to bridge this gap between network architecture design and CL, and to present a holistic study on the impact of network architectures on CL. This work considers architecture design at the network scaling level, i.e., width and depth, and also at the network components, i.e., skip connections, global pooling layers, and down-sampling. In both cases, we first derive insights through systematically exploring how architectural designs affect CL. Then, grounded in these insights, we craft a specialized search space for CL and further propose a simple yet effective ArchCraft method to steer a CL-friendly architecture, namely, this method recrafts AlexNet/ResNet into AlexAC/ResAC. Experimental validation across various CL settings and scenarios demonstrates that improved architectures are parameter-efficient, achieving state-of-the-art performance of CL while being 86%, 61%, and 97% more compact in terms of parameters than the naive CL architecture in Task IL and Class IL. Code is available at https://github.com/byyx666/ArchCraft.
- Abstract(参考訳): 破滅的な忘れを克服する努力は、主により効果的な継続的学習(CL)手法の開発に焦点を当ててきた。
対照的に、CLへの貢献におけるネットワークアーキテクチャ設計(例えば、ネットワーク深さ、幅、コンポーネント)の役割を分析することにはあまり注意が払われなかった。
本稿では,ネットワークアーキテクチャ設計とCLのこのギャップを埋めることと,ネットワークアーキテクチャがCLに与える影響に関する総合的研究を提案する。
この研究は、ネットワークスケーリングレベルでのアーキテクチャ設計、すなわち幅と深さ、およびネットワークコンポーネント、すなわち接続のスキップ、グローバルプール層、ダウンサンプリングについても検討している。
どちらの場合も、アーキテクチャ設計がCLにどのように影響するかを体系的に検討することで、まず洞察を導き出します。
そして、これらの知見に基づいて、CLのための特別な検索スペースを構築し、CLフレンドリーなアーキテクチャ、すなわちこのメソッドがAlexNet/ResNetをAlexAC/ResACに再構成する、シンプルで効果的なArchCraftメソッドを提案する。
さまざまなCL設定やシナリオに対する実験的検証では、改善されたアーキテクチャはパラメータ効率が高く、タスクILやクラスILの単純なCLアーキテクチャよりも86%、61%、97%コンパクトである。
コードはhttps://github.com/byyx666/ArchCraft.comで入手できる。
関連論文リスト
- (PASS) Visual Prompt Locates Good Structure Sparsity through a Recurrent HyperNetwork [60.889175951038496]
大規模ニューラルネットワークは、視覚や言語処理など、さまざまな領域で顕著なパフォーマンスを示している。
構造的刈り込みの鍵となる問題のひとつは、チャネルの意義を見積もる方法である。
我々は,新しいアルゴリズムフレームワーク,すなわち textttPASS を提案する。
視覚的プロンプトとネットワーク重み統計の両方を入力とし、繰り返し的に層ワイドチャネル間隔を出力するように調整されたハイパーネットワークである。
論文 参考訳(メタデータ) (2024-07-24T16:47:45Z) - Heterogeneous Continual Learning [88.53038822561197]
本稿では,ネットワークアーキテクチャの変更に伴う継続学習(CL)問題に対処する新しい枠組みを提案する。
本研究は, 蒸留ファミリ上に構築し, より弱いモデルが教師の役割を担うような, 新たな環境に適応するものである。
また、知識伝達を支援するために、タスク前の視覚的特徴を復元するクイック・ディープ・インバージョン(QDI)を提案する。
論文 参考訳(メタデータ) (2023-06-14T15:54:42Z) - Pushing the Efficiency Limit Using Structured Sparse Convolutions [82.31130122200578]
本稿では,画像の固有構造を利用して畳み込みフィルタのパラメータを削減する構造的スパース畳み込み(SSC)を提案する。
我々は、SSCが効率的なアーキテクチャにおける一般的なレイヤ(奥行き、グループ回り、ポイント回りの畳み込み)の一般化であることを示す。
SSCに基づくアーキテクチャは、CIFAR-10、CIFAR-100、Tiny-ImageNet、ImageNet分類ベンチマークのベースラインと比較して、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-23T18:37:22Z) - FlowNAS: Neural Architecture Search for Optical Flow Estimation [65.44079917247369]
本研究では,フロー推定タスクにおいて,より優れたエンコーダアーキテクチャを自動で見つけるために,FlowNASというニューラルアーキテクチャ探索手法を提案する。
実験の結果、スーパーネットワークから受け継いだ重み付きアーキテクチャは、KITTI上で4.67%のF1-allエラーを達成していることがわかった。
論文 参考訳(メタデータ) (2022-07-04T09:05:25Z) - One Network Doesn't Rule Them All: Moving Beyond Handcrafted
Architectures in Self-Supervised Learning [45.34419286124694]
ネットワークアーキテクチャが自己教師型学習(SSL)において重要な役割を果たすことを示す。
我々は、ResNetおよびMobileNetアーキテクチャの100種類以上のバリエーションを用いて研究を行い、SSL設定の11のダウンストリームシナリオでそれらを評価した。
自己教師型アーキテクチャ」は,大規模で計算量の多いResNet50と競合しながら,人気のハンドクラフトアーキテクチャよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-03-15T17:54:57Z) - SIRe-Networks: Skip Connections over Interlaced Multi-Task Learning and
Residual Connections for Structure Preserving Object Classification [28.02302915971059]
本稿では、オブジェクト分類タスクにおける消失勾配を低減するために、SIReを定義したインターレース型マルチタスク学習戦略を提案する。
提案手法は、自動エンコーダを介して入力画像構造を保存することにより、畳み込みニューラルネットワーク(CNN)を直接改善する。
提案手法を検証するため、SIRe戦略を介して単純なCNNと有名なネットワークの様々な実装を拡張し、CIFAR100データセットで広範囲にテストする。
論文 参考訳(メタデータ) (2021-10-06T13:54:49Z) - Rethinking Architecture Selection in Differentiable NAS [74.61723678821049]
微分可能なニューラルアーキテクチャ探索は、その探索効率と簡易性において最も人気のあるNAS手法の1つである。
本稿では,各操作がスーパーネットに与える影響を直接測定する摂動に基づくアーキテクチャ選択を提案する。
提案手法により,DARTSの故障モードを大幅に緩和できることがわかった。
論文 参考訳(メタデータ) (2021-08-10T00:53:39Z) - The Nonlinearity Coefficient -- A Practical Guide to Neural Architecture
Design [3.04585143845864]
我々は、アーキテクチャが比較的高いテストやトレーニング後のタスクのトレーニングエラーを達成できるかどうかを、トレーニングなしで予測できる手法を開発する。
その後、アーキテクチャ定義自体の観点でエラーを説明し、アーキテクチャを変更するツールを開発します。
最初の大きな貢献は、ニューラルネットワークアーキテクチャの'非線形性の度合い'がそのパフォーマンスの背後にある重要な因果的要因であることを示すことです。
論文 参考訳(メタデータ) (2021-05-25T20:47:43Z) - Growing Efficient Deep Networks by Structured Continuous Sparsification [34.7523496790944]
私たちは、トレーニングの過程でディープネットワークアーキテクチャを成長させるアプローチを開発します。
我々の手法は、小さくてシンプルなシードアーキテクチャから始まり、動的に成長し、層とフィルタの両方を熟成することができる。
ImageNetのベースラインであるResNet-50と比較すると、推論FLOPは49.7%、トレーニングFLOPは47.4%である。
論文 参考訳(メタデータ) (2020-07-30T10:03:47Z) - Stage-Wise Neural Architecture Search [65.03109178056937]
ResNetやNASNetのような現代の畳み込みネットワークは、多くのコンピュータビジョンアプリケーションで最先端の結果を得た。
これらのネットワークは、同じ解像度で表現を操作するレイヤのセットであるステージで構成されている。
各ステージにおけるレイヤー数の増加はネットワークの予測能力を向上させることが示されている。
しかし、結果として得られるアーキテクチャは、浮動小数点演算、メモリ要求、推論時間の観点から計算的に高価になる。
論文 参考訳(メタデータ) (2020-04-23T14:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。