論文の概要: Towards stable training of parallel continual learning
- arxiv url: http://arxiv.org/abs/2407.08214v1
- Date: Thu, 11 Jul 2024 06:31:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-12 18:48:48.791429
- Title: Towards stable training of parallel continual learning
- Title(参考訳): 並列連続学習の安定学習に向けて
- Authors: Li Yuepan, Fan Lyu, Yuyang Li, Wei Feng, Guangcan Liu, Fanhua Shang,
- Abstract要約: マルチソース入力を用いた連続学習における並列連続学習課題の検討
複数のタスクを同時にトレーニングする必要があるため、PCLの厳しいトレーニング不安定が生じる。
本稿では,PCLの学習安定性を高める新しい手法として,SPCL(Stable Parallel Continual Learning)を提案する。
- 参考スコア(独自算出の注目度): 27.774814769630453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parallel Continual Learning (PCL) tasks investigate the training methods for continual learning with multi-source input, where data from different tasks are learned as they arrive. PCL offers high training efficiency and is well-suited for complex multi-source data systems, such as autonomous vehicles equipped with multiple sensors. However, at any time, multiple tasks need to be trained simultaneously, leading to severe training instability in PCL. This instability manifests during both forward and backward propagation, where features are entangled and gradients are conflict. This paper introduces Stable Parallel Continual Learning (SPCL), a novel approach that enhances the training stability of PCL for both forward and backward propagation. For the forward propagation, we apply Doubly-block Toeplit (DBT) Matrix based orthogonality constraints to network parameters to ensure stable and consistent propagation. For the backward propagation, we employ orthogonal decomposition for gradient management stabilizes backpropagation and mitigates gradient conflicts across tasks. By optimizing gradients by ensuring orthogonality and minimizing the condition number, SPCL effectively stabilizing the gradient descent in complex optimization tasks. Experimental results demonstrate that SPCL outperforms state-of-the-art methjods and achieve better training stability.
- Abstract(参考訳): 並列連続学習(PCL)タスクは、マルチソース入力を用いて連続学習の訓練方法を調べる。
PCLは訓練効率が高く、複数のセンサーを備えた自動運転車のような複雑なマルチソースデータシステムに適している。
しかし、常に複数のタスクを同時にトレーニングする必要があるため、PCLの厳しいトレーニング不安定が生じる。
この不安定性は、特徴が絡み合っており、勾配が矛盾する前向きと後向きの両方の伝播の間に現れます。
本稿では,PCLの学習安定性を高める新しい手法として,SPCL(Stable Parallel Continual Learning)を提案する。
前方伝搬では,Douubly-block Toeplit (DBT) 行列に基づく直交制約をネットワークパラメータに適用し,安定かつ一貫した伝搬を保証する。
後ろ向きの伝搬には直交分解を用いて, 逆伝播を安定化し, タスク間の勾配衝突を緩和する。
直交性を確保し、条件数を最小限にすることで勾配を最適化することにより、SPCLは複雑な最適化タスクにおける勾配降下を効果的に安定化する。
実験の結果,SPCLは最先端のメスヨードより優れ,訓練安定性が向上した。
関連論文リスト
- Continual Multimodal Contrastive Learning [70.60542106731813]
マルチモーダル・コントラッシブ・ラーニング(MCL)は、異なるモーダルを整列させ、関節空間で多モーダル表現を生成する。
マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。
本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。
理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文 参考訳(メタデータ) (2025-03-19T07:57:08Z) - Scale-Distribution Decoupling: Enabling Stable and Effective Training of Large Language Models [21.16132396642158]
訓練安定性は、大規模言語モデル(LLM)の事前学習における永続的な課題である
完全連結層における重み行列のスケールと分布を明示的に分離し,トレーニングを安定させる手法として,SDD(Scale-Distribution Decoupling)を提案する。
論文 参考訳(メタデータ) (2025-02-21T14:49:34Z) - SPEQ: Offline Stabilization Phases for Efficient Q-Learning in High Update-To-Data Ratio Reinforcement Learning [51.10866035483686]
強化学習(RL)における高アップデート・トゥ・データ(UTD)比のアルゴリズムは、サンプル効率を改善するが、高い計算コストを伴い、現実世界のスケーラビリティを制限している。
我々は、低UTDオンライントレーニングと周期的オフライン安定化フェーズを組み合わせたRLアルゴリズムである、効率的なQ-Learningのためのオフライン安定化フェーズ(SPEQ)を提案する。
これらのフェーズでは、Q-関数は固定されたリプレイバッファ上で高いUTD比で微調整され、サブ最適データの冗長な更新が削減される。
論文 参考訳(メタデータ) (2025-01-15T09:04:19Z) - SALE-Based Offline Reinforcement Learning with Ensemble Q-Networks [0.0]
本稿では, EDAC から, アンサンブル Q-networks と勾配多様性ペナルティを統合したモデルフリーアクタ批判アルゴリズムを提案する。
提案アルゴリズムは,既存手法に比べて収束速度,安定性,性能の向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T10:22:30Z) - Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales [13.818149654692863]
強化学習(RL)トレーニングは、移動目標や高勾配分散などの要因により本質的に不安定である。
本研究では,雑音データに対する教師付き学習から逆クロスエントロピー(RCE)を適用し,対称的なRL損失を定義することにより,RLトレーニングの安定性を向上させる。
論文 参考訳(メタデータ) (2024-05-27T19:28:33Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Improving Data-aware and Parameter-aware Robustness for Continual Learning [3.480626767752489]
本報告では, オフラヤの非効率な取扱いから, この不整合が生じることを解析する。
本稿では,ロバスト連続学習(RCL)手法を提案する。
提案手法は, 堅牢性を効果的に維持し, 新たなSOTA(State-of-the-art)結果を得る。
論文 参考訳(メタデータ) (2024-05-27T11:21:26Z) - Efficiently Training Deep-Learning Parametric Policies using Lagrangian Duality [55.06411438416805]
制約付きマルコフ決定プロセス(CMDP)は、多くの高度な応用において重要である。
本稿では,パラメトリックアクターポリシーを効率的に訓練するための2段階深度決定規則(TS-DDR)を提案する。
現状の手法と比較して, 解の質を高め, 数桁の計算時間を削減できることが示されている。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Adversarial Training of Two-Layer Polynomial and ReLU Activation Networks via Convex Optimization [40.68266398473983]
敵対的攻撃に対して堅牢なニューラルネットワークのトレーニングは、ディープラーニングにおいて依然として重要な問題である。
凸プログラムとして2層ReLUおよびfty$アクティベーションネットワークのトレーニング問題を再構成する。
本研究では,大規模問題に対する凸対向訓練の実用性を示す。
論文 参考訳(メタデータ) (2024-05-22T22:08:13Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Free from Bellman Completeness: Trajectory Stitching via Model-based
Return-conditioned Supervised Learning [22.287106840756483]
本稿では,リターン条件付き教師あり学習(RCSL)に基づく非政治的学習技術が,ベルマン完全性の課題を回避することができることを示す。
本稿では,MBRCSL と呼ばれる単純なフレームワークを提案し,RCSL の手法により動的プログラミングにより,異なるトラジェクトリのセグメントを縫合することを可能にする。
論文 参考訳(メタデータ) (2023-10-30T07:03:14Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Q-learning Decision Transformer: Leveraging Dynamic Programming for
Conditional Sequence Modelling in Offline RL [0.0]
決定変換器(DT)は条件付きポリシーアプローチと変圧器アーキテクチャを組み合わせたものである。
DTには縫合能力がない -- オフラインのRLが最適なポリシを学ぶ上で重要な能力の1つだ。
DTの欠点に対処するQ-learning Decision Transformer (QDT)を提案する。
論文 参考訳(メタデータ) (2022-09-08T18:26:39Z) - Continuous Transition: Improving Sample Efficiency for Continuous
Control Problems via MixUp [119.69304125647785]
本稿では,連続的遷移を構築するための簡潔かつ強力な手法を提案する。
具体的には、連続的な遷移を線形に補間することにより、トレーニングのための新しい遷移を合成することを提案する。
また, 建設過程を自動案内する判別器を開発した。
論文 参考訳(メタデータ) (2020-11-30T01:20:23Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。