論文の概要: Convergence and Implicit Bias of Gradient Descent on Continual Linear Classification
- arxiv url: http://arxiv.org/abs/2504.12712v1
- Date: Thu, 17 Apr 2025 07:35:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:35:24.063744
- Title: Convergence and Implicit Bias of Gradient Descent on Continual Linear Classification
- Title(参考訳): 連続線形分類におけるグラディエントDescenceの収束と暗示バイアス
- Authors: Hyunji Jung, Hanseul Cho, Chulhee Yun,
- Abstract要約: 逐次的勾配降下(GD)による複数線形分類タスクの連続学習について検討する。
タスクが連分可能であれば、トレーニングされた線形分類器の(オフラインの)最大マルジン解への方向性収束を示す。
また、タスクがもはや関節分離不能な場合を分析し、循環順序で訓練されたモデルが関節損失関数の唯一の最小値に収束することを示す。
- 参考スコア(独自算出の注目度): 12.699007098398805
- License:
- Abstract: We study continual learning on multiple linear classification tasks by sequentially running gradient descent (GD) for a fixed budget of iterations per task. When all tasks are jointly linearly separable and are presented in a cyclic/random order, we show the directional convergence of the trained linear classifier to the joint (offline) max-margin solution. This is surprising because GD training on a single task is implicitly biased towards the individual max-margin solution for the task, and the direction of the joint max-margin solution can be largely different from these individual solutions. Additionally, when tasks are given in a cyclic order, we present a non-asymptotic analysis on cycle-averaged forgetting, revealing that (1) alignment between tasks is indeed closely tied to catastrophic forgetting and backward knowledge transfer and (2) the amount of forgetting vanishes to zero as the cycle repeats. Lastly, we analyze the case where the tasks are no longer jointly separable and show that the model trained in a cyclic order converges to the unique minimum of the joint loss function.
- Abstract(参考訳): 本研究では,複数の線形分類タスクに対する連続学習を,タスク毎の繰り返しの固定予算に対する逐次勾配降下(GD)により検討する。
すべてのタスクが共同で線形分離可能であり、巡回/ランダム順序で表されるとき、トレーニングされた線形分類器の結合(オフライン)マックスマージン解への方向性収束を示す。
これは、単一のタスクに対するGDトレーニングが、タスクに対する個々のマックスマージン解に対して暗黙的に偏りがあり、ジョイントマックスマージン解の方向がこれらの個々の解と大きく異なるためである。
さらに, 繰り返し順序でタスクが与えられると, 1) タスク間のアライメントは, 破滅的な忘れと後向きの知識伝達と密接に結びついており, 2) サイクルが繰り返されるにつれて, 忘れることの量はゼロになる。
最後に、タスクがもはや関節分離不能な場合を分析し、循環順序で訓練されたモデルが関節損失関数の特異な最小値に収束することを示す。
関連論文リスト
- Training Dynamics of Multi-Head Softmax Attention for In-Context Learning: Emergence, Convergence, and Optimality [54.20763128054692]
マルチタスク線形回帰の文脈内学習のためのマルチヘッドソフトマックスアテンションモデルを訓練するための勾配流のダイナミクスについて検討する。
我々は,勾配流のダイナミックス中に,興味深い「タスク割り当て」現象が現れることを証明した。
論文 参考訳(メタデータ) (2024-02-29T18:43:52Z) - Continual Learning in Linear Classification on Separable Data [34.78569443156924]
正規化の弱い学習は、逐次極大問題の解法に還元されることを示す。
次に、様々な設定の下で、忘れることやその他の関心事に関する上限を策定する。
正規化スケジューリングや重み付けといった,一般的なトレーニングプラクティスに対する実践的な影響について論じる。
論文 参考訳(メタデータ) (2023-06-06T09:34:11Z) - Learning Linear Causal Representations from Interventions under General
Nonlinear Mixing [52.66151568785088]
介入対象にアクセスできることなく、未知の単一ノード介入を考慮し、強い識別可能性を示す。
これは、ディープニューラルネットワークの埋め込みに対する非ペアの介入による因果識別性の最初の例である。
論文 参考訳(メタデータ) (2023-06-04T02:32:12Z) - Intersection of Parallels as an Early Stopping Criterion [64.8387564654474]
そこで本研究では,検証セットを必要とせずに,トレーニングイテレーションの早期停止点を見つける手法を提案する。
幅広い学習率において,コサイン距離基準 (CDC) と呼ばれる手法は,比較したすべての手法よりも平均的な一般化に寄与する。
論文 参考訳(メタデータ) (2022-08-19T19:42:41Z) - How catastrophic can catastrophic forgetting be in linear regression? [30.702863017223457]
モデルがその後のタスクのトレーニング後に、以前のタスクの本当のラベルをどれだけ忘れているかを分析する。
線形設定における連続学習と他の2つの研究領域の関連性を確立する。
論文 参考訳(メタデータ) (2022-05-19T14:28:40Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Representation Learning via Global Temporal Alignment and
Cycle-Consistency [20.715813546383178]
時間列の整合に基づく表現学習のための弱教師付き手法を提案する。
従来方式に比べて大幅な性能向上を報告しています。
さらに、時間アライメントフレームワークの2つのアプリケーション、すなわち3Dポーズ再構築ときめ細かいオーディオ/ビジュアル検索を報告します。
論文 参考訳(メタデータ) (2021-05-11T17:34:04Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - A Retrospective Approximation Approach for Smooth Stochastic
Optimization [0.2867517731896504]
グラディエント(グラディエント、英: Gradient、SG)とは、最適化(SO)問題をスムーズ(ノンフィクション)な目標値で解くための補足的反復手法である。
論文 参考訳(メタデータ) (2021-03-07T16:29:36Z) - Competitive Mirror Descent [67.31015611281225]
制約のある競合最適化には、制約の対象となる競合する目的を最小化しようとする複数のエージェントが含まれる。
本稿では, 競合ミラー降下法(CMD)を提案する。
特別の場合として、正の円錐上の問題に対する新しい競合乗法重みアルゴリズムを得る。
論文 参考訳(メタデータ) (2020-06-17T22:11:35Z) - A Relaxed Inertial Forward-Backward-Forward Algorithm for Solving
Monotone Inclusions with Application to GANs [0.0]
最大単調演算子と単価単調演算子とリプシッツ連続演算子の和の零点集合に近づくための緩和慣性前方分割アルゴリズム(RIFBF)を導入する。
本稿では, 線形サドル点問題への応用による提案手法について, 慣性パラメータと緩和パラメータの相互作用も強調する。
論文 参考訳(メタデータ) (2020-03-17T18:52:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。