Fugu-MT 論文翻訳(概要): HyperInterval: Hypernetwork approach to training weight interval regions in continual learning

論文の概要: HyperInterval: Hypernetwork approach to training weight interval regions in continual learning

arxiv url: http://arxiv.org/abs/2405.15444v3
Date: Mon, 2 Sep 2024 15:09:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-04 18:11:10.910198
Title: HyperInterval: Hypernetwork approach to training weight interval regions in continual learning
Title（参考訳）: HyperInterval:連続学習におけるウェイトインターバル領域のトレーニングのためのハイパーネットワークアプローチ
Authors: Patryk Krukowski, Anna Bielawska, Kamil Książek, Paweł Wawrzyński, Paweł Batorski, Przemysław Spurek,
Abstract要約: InterContiNet(Interval Continual Learning)は、ニューラルネットワークのパラメータ空間に間隔制約を強制することに依存する。埋め込み空間内でのインターバル演算を利用する手法について紹介する。 InterContiNetよりはるかに優れた結果が得られ、いくつかのベンチマークでSOTA結果が得られます。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, a new Continual Learning (CL) paradigm was presented to control catastrophic forgetting, called Interval Continual Learning (InterContiNet), which relies on enforcing interval constraints on the neural network parameter space. Unfortunately, InterContiNet training is challenging due to the high dimensionality of the weight space, making intervals difficult to manage. To address this issue, we introduce \our{} \footnote{The source code is available at https://github.com/gmum/HyperInterval}, a technique that employs interval arithmetic within the embedding space and utilizes a hypernetwork to map these intervals to the target network parameter space. We train interval embeddings for consecutive tasks and train a hypernetwork to transform these embeddings into weights of the target network. An embedding for a given task is trained along with the hypernetwork, preserving the response of the target network for the previous task embeddings. Interval arithmetic works with a more manageable, lower-dimensional embedding space rather than directly preparing intervals in a high-dimensional weight space. Our model allows faster and more efficient training. Furthermore, \our{} maintains the guarantee of not forgetting. At the end of training, we can choose one universal embedding to produce a single network dedicated to all tasks. In such a framework, hypernetwork is used only for training and, finally, we can utilize one set of weights. \our{} obtains significantly better results than InterContiNet and gives SOTA results on several benchmarks.
Abstract（参考訳）: 最近、ニューラルネットワークのパラメータ空間に間隔制約を強制することに依存するInterContiNet(IntercontiNet)と呼ばれる、破滅的な忘れを制御するために、新しい連続学習(CL)パラダイムが提示された。残念ながら、InterContiNetトレーニングは重量空間の高次元性のために困難であり、間隔の管理が困難である。この問題に対処するため,ソースコードはhttps://github.com/gmum/HyperInterval} で利用可能である。我々は、連続したタスクに対するインターバル埋め込みを訓練し、ハイパーネットワークをトレーニングし、これらの埋め込みをターゲットネットワークの重みに変換する。与えられたタスクの埋め込みはハイパーネットワークと共にトレーニングされ、以前のタスクの埋め込みに対するターゲットネットワークの応答を保存する。インターバル算術は、高次元の重み空間における間隔を直接準備するのではなく、より管理可能な、より低次元の埋め込み空間で動作する。私たちのモデルはより速く、より効率的なトレーニングを可能にします。さらに \our{} は、忘れないことを保証する。トレーニングの終わりに、すべてのタスク専用の1つのネットワークを生成するために、1つの普遍的な埋め込みを選択することができます。このようなフレームワークでは、ハイパーネットワークはトレーニングにのみ使用され、最終的には1セットの重みを使うことができる。 \our{}はInterContiNetよりもはるかに優れた結果を取得し、いくつかのベンチマークでSOTA結果を与える。

関連論文リスト

Spatio-Temporal Decoupled Learning for Spiking Neural Networks [23.720523101102593]
スパイキング人工ニューラルネットワーク(SNN)は、エネルギー効率の良いインテリジェンスを実現する可能性に大きな注目を集めている。時間によるバックプロパゲーション(BPTT)は高い精度を達成するが、かなりのメモリオーバーヘッドを引き起こす。本研究では,SNNの精度と訓練効率を両立させるため,空間的および時間的依存関係を分離する新たなトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-01T18:46:36Z)
HyperNet Fields: Efficiently Training Hypernetworks without Ground Truth by Learning Weight Trajectories [62.975803165786324]
我々は,サンプル単位の真理を必要とせず,ハイパーネットワークを訓練する手法を提案する。私たちのキーとなるアイデアは、Hypernetwork Fieldを学び、単に収束状態ではなく、ネットワークウェイトトレーニングの全軌道を見積もることです。
論文参考訳（メタデータ） (2024-12-22T14:37:10Z)
HyperMask: Adaptive Hypernetwork-based Masks for Continual Learning [0.0]
CLタスクに応じてターゲットネットワークを動的にフィルタリングするHyperMaskという手法を提案する。宝くじの仮説により、重み付けされた忘れ物を持つ1つのネットワークを使うことができる。
論文参考訳（メタデータ） (2023-09-29T20:01:11Z)
Dense Network Expansion for Class Incremental Learning [61.00081795200547]
最先端のアプローチでは、ネットワーク拡張(NE)に基づいた動的アーキテクチャを使用し、タスクごとにタスクエキスパートを追加する。精度とモデル複雑性のトレードオフを改善するために,新しい NE 手法である高密度ネットワーク拡張 (DNE) を提案する。従来のSOTA法では、類似またはより小さなモデルスケールで、精度の点で4%のマージンで性能が向上した。
論文参考訳（メタデータ） (2023-03-22T16:42:26Z)
Low Rank Optimization for Efficient Deep Learning: Making A Balance between Compact Architecture and Fast Training [36.85333789033387]
本稿では,効率的なディープラーニング技術のための低ランク最適化に焦点を当てる。空間領域では、ディープニューラルネットワークは、ネットワークパラメータの低階近似によって圧縮される。時間領域では、ネットワークパラメータをいくつかのサブスペースでトレーニングできるため、高速収束のための効率的なトレーニングが可能になる。
論文参考訳（メタデータ） (2023-03-22T03:55:16Z)
Continual Learning with Dependency Preserving Hypernetworks [14.102057320661427]
継続学習(CL)問題に対処するための効果的なアプローチは、ターゲットネットワークのタスク依存重みを生成するハイパーネットワークを使用することである。本稿では,パラメータの効率を保ちながら,依存関係保存型ハイパーネットワークを用いて対象ネットワークの重み付けを生成する手法を提案する。さらに,RNNベースのハイパーネットワークのための新しい正規化手法とネットワーク成長手法を提案し,継続学習性能をさらに向上させる。
論文参考訳（メタデータ） (2022-09-16T04:42:21Z)
Continual Learning with Guarantees via Weight Interval Constraints [18.791232422083265]
ニューラルネットパラメータ空間の間隔制約を適用して、忘れを抑える新しいトレーニングパラダイムを導入する。本稿では,モデルの連続的学習をパラメータ空間の連続的縮約として再構成することで,忘れることに制限を加える方法を示す。
論文参考訳（メタデータ） (2022-06-16T08:28:37Z)
Learning to Win Lottery Tickets in BERT Transfer via Task-agnostic Mask Training [55.43088293183165]
近年の研究では、BERTのような事前学習言語モデル(PLM)には、元のPLMと同じような変換学習性能を持つマッチングワークが含まれていることが示されている。本稿では, BERTworksがこれらの研究で示された以上の可能性を秘めていることを示す。我々は、サブネットワークの普遍的な転送可能性を維持することを目的として、事前学習タスクのモデル重みよりも二項マスクを訓練する。
論文参考訳（メタデータ） (2022-04-24T08:42:47Z)
Semi-supervised Network Embedding with Differentiable Deep Quantisation [81.49184987430333]
我々はネットワーク埋め込みのための微分可能な量子化法であるd-SNEQを開発した。 d-SNEQは、学習された量子化符号にリッチな高次情報を与えるためにランク損失を組み込む。トレーニング済みの埋め込みのサイズを大幅に圧縮できるため、ストレージのフットプリントが減少し、検索速度が向上する。
論文参考訳（メタデータ） (2021-08-20T11:53:05Z)
FreeTickets: Accurate, Robust and Efficient Deep Ensemble by Training with Dynamic Sparsity [74.58777701536668]
我々は、疎い畳み込みニューラルネットワークの性能を、ネットワークの高密度な部分よりも大きなマージンで向上させることができるFreeTicketsの概念を紹介した。本研究では, ダイナミックな間隔を持つ2つの新しい効率的なアンサンブル手法を提案し, スパーストレーニング過程において, 多数の多様かつ正確なチケットを「無償」で撮影する。
論文参考訳（メタデータ） (2021-06-28T10:48:20Z)
Training Networks in Null Space of Feature Covariance for Continual Learning [34.095874368589904]
従来のタスクのヌルスペース内でネットワークパラメータを逐次最適化する新しいネットワークトレーニングアルゴリズムadam-nsclを提案する。このアプローチを,cifar-100とtinyimagenetのベンチマークデータセット上での連続学習のためのトレーニングネットワークに適用する。
論文参考訳（メタデータ） (2021-03-12T07:21:48Z)
SALA: Soft Assignment Local Aggregation for Parameter Efficient 3D Semantic Segmentation [65.96170587706148]
3dポイントクラウドセマンティクスセグメンテーションのためのパラメータ効率の良いネットワークを生成するポイントローカルアグリゲーション関数の設計に着目する。グリッド型アグリゲーション関数における学習可能な隣り合わせソフトアロケーションの利用について検討する。
論文参考訳（メタデータ） (2020-12-29T20:16:37Z)
Rapid Structural Pruning of Neural Networks with Set-based Task-Adaptive Meta-Pruning [83.59005356327103]
既存のプルーニング技術に共通する制限は、プルーニングの前に少なくとも1回はネットワークの事前トレーニングが必要であることである。本稿では,ターゲットデータセットの関数としてプルーニングマスクを生成することにより,大規模な参照データセット上で事前訓練されたネットワークをタスク適応的にプルークするSTAMPを提案する。ベンチマークデータセット上での最近の先進的なプルーニング手法に対するSTAMPの有効性を検証する。
論文参考訳（メタデータ） (2020-06-22T10:57:43Z)
Semantic Drift Compensation for Class-Incremental Learning [48.749630494026086]
ディープネットワークのクラス増分学習は、分類対象のクラス数を順次増加させる。本研究では,特徴のセマンティックドリフト(セマンティックドリフト)と呼ばれるドリフトを推定し,その補正を行う新しい手法を提案する。
論文参考訳（メタデータ） (2020-04-01T13:31:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。