論文の概要: Towards stable training of parallel continual learning
- arxiv url: http://arxiv.org/abs/2407.08214v1
- Date: Thu, 11 Jul 2024 06:31:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 18:48:48.791429
- Title: Towards stable training of parallel continual learning
- Title(参考訳): 並列連続学習の安定学習に向けて
- Authors: Li Yuepan, Fan Lyu, Yuyang Li, Wei Feng, Guangcan Liu, Fanhua Shang,
- Abstract要約: マルチソース入力を用いた連続学習における並列連続学習課題の検討
複数のタスクを同時にトレーニングする必要があるため、PCLの厳しいトレーニング不安定が生じる。
本稿では,PCLの学習安定性を高める新しい手法として,SPCL(Stable Parallel Continual Learning)を提案する。
- 参考スコア(独自算出の注目度): 27.774814769630453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parallel Continual Learning (PCL) tasks investigate the training methods for continual learning with multi-source input, where data from different tasks are learned as they arrive. PCL offers high training efficiency and is well-suited for complex multi-source data systems, such as autonomous vehicles equipped with multiple sensors. However, at any time, multiple tasks need to be trained simultaneously, leading to severe training instability in PCL. This instability manifests during both forward and backward propagation, where features are entangled and gradients are conflict. This paper introduces Stable Parallel Continual Learning (SPCL), a novel approach that enhances the training stability of PCL for both forward and backward propagation. For the forward propagation, we apply Doubly-block Toeplit (DBT) Matrix based orthogonality constraints to network parameters to ensure stable and consistent propagation. For the backward propagation, we employ orthogonal decomposition for gradient management stabilizes backpropagation and mitigates gradient conflicts across tasks. By optimizing gradients by ensuring orthogonality and minimizing the condition number, SPCL effectively stabilizing the gradient descent in complex optimization tasks. Experimental results demonstrate that SPCL outperforms state-of-the-art methjods and achieve better training stability.
- Abstract(参考訳): 並列連続学習(PCL)タスクは、マルチソース入力を用いて連続学習の訓練方法を調べる。
PCLは訓練効率が高く、複数のセンサーを備えた自動運転車のような複雑なマルチソースデータシステムに適している。
しかし、常に複数のタスクを同時にトレーニングする必要があるため、PCLの厳しいトレーニング不安定が生じる。
この不安定性は、特徴が絡み合っており、勾配が矛盾する前向きと後向きの両方の伝播の間に現れます。
本稿では,PCLの学習安定性を高める新しい手法として,SPCL(Stable Parallel Continual Learning)を提案する。
前方伝搬では,Douubly-block Toeplit (DBT) 行列に基づく直交制約をネットワークパラメータに適用し,安定かつ一貫した伝搬を保証する。
後ろ向きの伝搬には直交分解を用いて, 逆伝播を安定化し, タスク間の勾配衝突を緩和する。
直交性を確保し、条件数を最小限にすることで勾配を最適化することにより、SPCLは複雑な最適化タスクにおける勾配降下を効果的に安定化する。
実験の結果,SPCLは最先端のメスヨードより優れ,訓練安定性が向上した。
関連論文リスト
- SALE-Based Offline Reinforcement Learning with Ensemble Q-Networks [0.0]
本稿では, EDAC から, アンサンブル Q-networks と勾配多様性ペナルティを統合したモデルフリーアクタ批判アルゴリズムを提案する。
提案アルゴリズムは,既存手法に比べて収束速度,安定性,性能の向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T10:22:30Z) - Demystifying Workload Imbalances in Large Transformer Model Training over Variable-length Sequences [31.232756326457277]
我々は並列戦略とデータ割り当てを協調的に最適化するHydraulisを開発する。
実験の結果、Hydraulis は既存のシステムよりも 1.32-2.66 倍高い性能を示した。
論文 参考訳(メタデータ) (2024-12-10T20:01:53Z) - Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales [13.818149654692863]
強化学習(RL)トレーニングは、移動目標や高勾配分散などの要因により本質的に不安定である。
本研究では,雑音データに対する教師付き学習から逆クロスエントロピー(RCE)を適用し,対称的なRL損失を定義することにより,RLトレーニングの安定性を向上させる。
論文 参考訳(メタデータ) (2024-05-27T19:28:33Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Improving Data-aware and Parameter-aware Robustness for Continual Learning [3.480626767752489]
本報告では, オフラヤの非効率な取扱いから, この不整合が生じることを解析する。
本稿では,ロバスト連続学習(RCL)手法を提案する。
提案手法は, 堅牢性を効果的に維持し, 新たなSOTA(State-of-the-art)結果を得る。
論文 参考訳(メタデータ) (2024-05-27T11:21:26Z) - Efficiently Training Deep-Learning Parametric Policies using Lagrangian Duality [55.06411438416805]
制約付きマルコフ決定プロセス(CMDP)は、多くの高度な応用において重要である。
本稿では,パラメトリックアクターポリシーを効率的に訓練するための2段階深度決定規則(TS-DDR)を提案する。
現状の手法と比較して, 解の質を高め, 数桁の計算時間を削減できることが示されている。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Adversarial Training of Two-Layer Polynomial and ReLU Activation Networks via Convex Optimization [40.68266398473983]
敵対的攻撃に対して堅牢なニューラルネットワークのトレーニングは、ディープラーニングにおいて依然として重要な問題である。
凸プログラムとして2層ReLUおよびfty$アクティベーションネットワークのトレーニング問題を再構成する。
本研究では,大規模問題に対する凸対向訓練の実用性を示す。
論文 参考訳(メタデータ) (2024-05-22T22:08:13Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。