論文の概要: The Effect of Architecture During Continual Learning
- arxiv url: http://arxiv.org/abs/2601.19766v1
- Date: Tue, 27 Jan 2026 16:29:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.394186
- Title: The Effect of Architecture During Continual Learning
- Title(参考訳): 継続的学習におけるアーキテクチャの効果
- Authors: Allyson Hahn, Krishnan Raghavan,
- Abstract要約: 本稿では,ソボレフ空間のアーキテクチャと重みを共同でモデル化する数学的枠組みを提案する。
モデル重みのみの学習は、分布シフト下での破滅的な忘れを緩和するには不十分であることを示す。
フィードフォワード、畳み込み、グラフニューラルネットワークを含む回帰と分類に関する実証的研究は、最適なアーキテクチャと重みの学習が同時に性能を大幅に向上させることを示した。
- 参考スコア(独自算出の注目度): 2.1485350418225244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning is a challenge for models with static architecture, as they fail to adapt to when data distributions evolve across tasks. We introduce a mathematical framework that jointly models architecture and weights in a Sobolev space, enabling a rigorous investigation into the role of neural network architecture in continual learning and its effect on the forgetting loss. We derive necessary conditions for the continual learning solution and prove that learning only model weights is insufficient to mitigate catastrophic forgetting under distribution shifts. Consequently, we prove that by learning the architecture and weights simultaneously at each task, we can reduce catastrophic forgetting. To learn weights and architecture simultaneously, we formulate continual learning as a bilevel optimization problem: the upper level selects an optimal architecture for a given task, while the lower level computes optimal weights via dynamic programming over all tasks. To solve the upper level problem, we introduce a derivative-free direct search algorithm to determine the optimal architecture. Once found, we must transfer knowledge from the current architecture to the optimal one. However, the optimal architecture will result in a weights parameter space different from the current architecture (i.e., dimensions of weights matrices will not match). To bridge the dimensionality gap, we develop a low-rank transfer mechanism to map knowledge across architectures of mismatched dimensions. Empirical studies across regression and classification problems, including feedforward, convolutional, and graph neural networks, demonstrate that learning the optimal architecture and weights simultaneously yields substantially improved performance (up to two orders of magnitude), reduced forgetting, and enhanced robustness to noise compared with static architecture approaches.
- Abstract(参考訳): 静的アーキテクチャを持つモデルでは、タスク間でデータ分散が進化するときに適応できないため、継続的な学習が課題となる。
本稿では,ソボレフ空間におけるアーキテクチャと重みを共同でモデル化し,連続学習におけるニューラルネットワークアーキテクチャの役割とその忘れる損失に対する影響について厳密な調査を可能にする数学的枠組みを提案する。
連続学習ソリューションに必要な条件を導出し, モデル重みのみの学習が, 分布シフト下での破滅的忘れを緩和するには不十分であることを証明した。
その結果、各タスクで同時にアーキテクチャと重みを学習することで、破滅的な忘れを減らせることが証明された。
重みとアーキテクチャを同時に学習するために、2レベル最適化問題として連続学習を定式化し、上位レベルが与えられたタスクに対して最適なアーキテクチャを選択し、下位レベルが全てのタスクに対して動的プログラミングによって最適な重みを計算した。
上位レベルの問題を解くために、最適なアーキテクチャを決定するためにデリバティブフリーの直接探索アルゴリズムを導入する。
一度見つけたら、現在のアーキテクチャから最適なアーキテクチャに知識を移さなければなりません。
しかし、最適アーキテクチャは現在のアーキテクチャとは異なる重みパラメータ空間をもたらす(すなわち重みの次元は一致しない)。
次元ギャップを埋めるために,不整合な次元のアーキテクチャにまたがる知識をマップする低ランク転送機構を開発する。
フィードフォワード、畳み込み、グラフニューラルネットワークを含む回帰と分類の問題に関する実証的研究は、最適アーキテクチャと重みの学習が、静的アーキテクチャのアプローチと比較して、性能(最大2桁まで)を大幅に改善し、忘れを減らし、ノイズに対する堅牢性を高めることを実証している。
関連論文リスト
- Growing Tiny Networks: Spotting Expressivity Bottlenecks and Fixing Them Optimally [2.421273972191206]
機械学習タスクでは、ある機能空間内で最適な関数を探索する。
この方法で、トレーニング中の機能の進化を、選択したアーキテクチャで表現可能な領域内に配置させます。
表現性ボトルネックによる望ましいアーキテクチャ変更に関する情報は,バックプロパゲーションから抽出可能であることを示す。
論文 参考訳(メタデータ) (2024-05-30T08:23:56Z) - Unsupervised Graph Neural Architecture Search with Disentangled
Self-supervision [51.88848982611515]
教師なしグラフニューラルアーキテクチャサーチは、文献では未発見のままである。
本稿では,Distangled Self-supervised Graph Neural Architecture Searchモデルを提案する。
我々のモデルは、教師なしの方法で、いくつかのベースライン手法に対して最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-03-08T05:23:55Z) - Differentiable Architecture Pruning for Transfer Learning [6.935731409563879]
本研究では,与えられた大規模モデルからサブアーキテクチャを抽出するための勾配に基づくアプローチを提案する。
我々のアーキテクチャ・プルーニング・スキームは、異なるタスクを解くために再訓練を成功させることができるトランスファー可能な新しい構造を生成する。
理論的収束保証を提供し、実データ上で提案した伝達学習戦略を検証する。
論文 参考訳(メタデータ) (2021-07-07T17:44:59Z) - AdaXpert: Adapting Neural Architecture for Growing Data [63.30393509048505]
実世界のアプリケーションでは、データボリュームとクラス数が動的に増加する可能性があるため、データが増大することが多い。
データボリュームの増加やクラスの数を考えると、期待できるパフォーマンスを得るためには、ニューラルネットワークのキャパシティを瞬時に調整する必要がある。
既存のメソッドは、データの増大する性質を無視したり、特定のデータセットの最適なアーキテクチャを独立して検索しようとする。
論文 参考訳(メタデータ) (2021-07-01T07:22:05Z) - iDARTS: Differentiable Architecture Search with Stochastic Implicit
Gradients [75.41173109807735]
微分可能なArchiTecture Search(DARTS)は先日,ニューラルアーキテクチャサーチ(NAS)の主流になった。
暗黙の関数定理に基づいてDARTSの過次計算に取り組む。
提案手法であるiDARTSのアーキテクチャ最適化は,定常点に収束することが期待される。
論文 参考訳(メタデータ) (2021-06-21T00:44:11Z) - The Nonlinearity Coefficient -- A Practical Guide to Neural Architecture
Design [3.04585143845864]
我々は、アーキテクチャが比較的高いテストやトレーニング後のタスクのトレーニングエラーを達成できるかどうかを、トレーニングなしで予測できる手法を開発する。
その後、アーキテクチャ定義自体の観点でエラーを説明し、アーキテクチャを変更するツールを開発します。
最初の大きな貢献は、ニューラルネットワークアーキテクチャの'非線形性の度合い'がそのパフォーマンスの背後にある重要な因果的要因であることを示すことです。
論文 参考訳(メタデータ) (2021-05-25T20:47:43Z) - Disentangling Neural Architectures and Weights: A Case Study in
Supervised Classification [8.976788958300766]
本研究は、神経構造とそのエッジウェイトの役割を解消する問題について考察する。
十分に訓練されたアーキテクチャでは、重み付けのリンク固有の微調整は不要である。
我々は、ハードアーキテクチャ探索問題を実現可能な最適化問題に変換する、新しい計算効率のよい手法を用いる。
論文 参考訳(メタデータ) (2020-09-11T11:22:22Z) - A Semi-Supervised Assessor of Neural Architectures [157.76189339451565]
我々は、ニューラルネットワークの有意義な表現を見つけるためにオートエンコーダを用いる。
アーキテクチャの性能を予測するために、グラフ畳み込みニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-05-14T09:02:33Z) - Disturbance-immune Weight Sharing for Neural Architecture Search [96.93812980299428]
本稿では,モデル更新のための乱れ免疫更新戦略を提案する。
我々は,パフォーマンス障害リスクを軽減するための戦略の有効性を理論的に分析する。
論文 参考訳(メタデータ) (2020-03-29T17:54:49Z) - RC-DARTS: Resource Constrained Differentiable Architecture Search [162.7199952019152]
資源制約付き微分可能なアーキテクチャ探索法(RC-DARTS)を提案する。
RC-DARTS法は,モデルサイズが小さく,計算量も少ない,軽量なニューラルアーキテクチャを学習する。
論文 参考訳(メタデータ) (2019-12-30T05:02:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。