論文の概要: Are Greedy Task Orderings Better Than Random in Continual Linear Regression?
- arxiv url: http://arxiv.org/abs/2510.19941v1
- Date: Wed, 22 Oct 2025 18:09:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.627153
- Title: Are Greedy Task Orderings Better Than Random in Continual Linear Regression?
- Title(参考訳): 連続線形回帰におけるグレディタスク命令はランダムよりも優れているか?
- Authors: Matan Tsipory, Ran Levinstein, Itay Evron, Mark Kong, Deanna Needell, Daniel Soudry,
- Abstract要約: 線形回帰のための連続学習におけるタスク順序の解析を行う。
我々は,連続タスク間の相違性を極度に最大化する順序付けに着目する。
我々は,タスク間の平均損失の点で,欲求順序はランダムな順序よりも早く収束することを示した。
- 参考スコア(独自算出の注目度): 23.706463629642155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We analyze task orderings in continual learning for linear regression, assuming joint realizability of training data. We focus on orderings that greedily maximize dissimilarity between consecutive tasks, a concept briefly explored in prior work but still surrounded by open questions. Using tools from the Kaczmarz method literature, we formalize such orderings and develop geometric and algebraic intuitions around them. Empirically, we demonstrate that greedy orderings converge faster than random ones in terms of the average loss across tasks, both for linear regression with random data and for linear probing on CIFAR-100 classification tasks. Analytically, in a high-rank regression setting, we prove a loss bound for greedy orderings analogous to that of random ones. However, under general rank, we establish a repetition-dependent separation. Specifically, while prior work showed that for random orderings, with or without replacement, the average loss after $k$ iterations is bounded by $\mathcal{O}(1/\sqrt{k})$, we prove that single-pass greedy orderings may fail catastrophically, whereas those allowing repetition converge at rate $\mathcal{O}(1/\sqrt[3]{k})$. Overall, we reveal nuances within and between greedy and random orderings.
- Abstract(参考訳): 学習データの連成実現可能性を考慮した連続学習におけるタスク順序の分析を行った。
我々は、連続するタスク間の相違性を鮮やかに最大化する順序付けに重点を置いている。
カッツマルツ法文学の道具を用いて、そのような順序付けを形式化し、それらを取り巻く幾何学的および代数的直観を発達させる。
実験により,CIFAR-100分類タスクにおける線形回帰と線形回帰の両方において,不規則な順序付けがタスク間の平均損失の点で,ランダムな順序付けよりも高速に収束することが実証された。
解析的に、高階回帰環境では、無作為な順序に対する損失境界がランダムな順序と類似していることを証明する。
しかし、一般の階級では、繰り返し依存的な分離を確立する。
特に、事前の研究では、置換の有無にかかわらず、$k$ の反復後の平均損失は $\mathcal{O}(1/\sqrt{k})$ で有界である一方で、単一パスの欲求順序が破滅的に失敗することを証明する一方、反復を許すものは $\mathcal{O}(1/\sqrt[3]{k})$ で収束することを示した。
全体として、欲求と無作為な秩序の間のニュアンスを明らかにする。
関連論文リスト
- Optimal Unconstrained Self-Distillation in Ridge Regression: Strict Improvements, Precise Asymptotics, and One-Shot Tuning [61.07540493350384]
自己蒸留(英: Self-distillation, SD)とは、教師自身の予測と地道の混合で学生を訓練する過程である。
任意の予測リスクに対して、各正規化レベルにおいて、最適に混合された学生がリッジ教師に改善されることが示される。
本稿では,グリッド探索やサンプル分割,再構成なしに$star$を推定する一貫したワンショットチューニング手法を提案する。
論文 参考訳(メタデータ) (2026-02-19T17:21:15Z) - CAIRO: Decoupling Order from Scale in Regression [13.755937210012883]
回帰を2つの異なる段階に分離する枠組みを提案する。
第1段階では,スケール不変ランキングの損失を最小限に抑えることで,スコアリング関数を学習する。
第2に,等速回帰による目標スケールの復元を行う。
論文 参考訳(メタデータ) (2026-02-16T03:50:05Z) - Convergence and Implicit Bias of Gradient Descent on Continual Linear Classification [12.699007098398805]
逐次的勾配降下(GD)による複数線形分類タスクの連続学習について検討する。
タスクが連分可能であれば、トレーニングされた線形分類器の(オフラインの)最大マルジン解への方向性収束を示す。
また、タスクがもはや関節分離不能な場合を分析し、循環順序で訓練されたモデルが関節損失関数の唯一の最小値に収束することを示す。
論文 参考訳(メタデータ) (2025-04-17T07:35:48Z) - From Continual Learning to SGD and Back: Better Rates for Continual Linear Models [50.11453013647086]
以前見られたタスクの損失を、$k$の繰り返しの後、忘れること、すなわち、分析する。
実現可能な最小二乗の設定において、新しい最上界を創出する。
我々は、タスクを繰り返しないランダム化だけで、十分に長いタスクシーケンスで破滅的な事態を防げることを初めて証明した。
論文 参考訳(メタデータ) (2025-04-06T18:39:45Z) - Robust Capped lp-Norm Support Vector Ordinal Regression [85.84718111830752]
正規回帰は、ラベルが固有の順序を示す特殊な教師付き問題である。
卓越した順序回帰モデルとしてのベクトル順序回帰は、多くの順序回帰タスクで広く使われている。
我々は,新たなモデルであるCapped $ell_p$-Norm Support Vector Ordinal Regression (CSVOR)を導入する。
論文 参考訳(メタデータ) (2024-04-25T13:56:05Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - How catastrophic can catastrophic forgetting be in linear regression? [30.702863017223457]
モデルがその後のタスクのトレーニング後に、以前のタスクの本当のラベルをどれだけ忘れているかを分析する。
線形設定における連続学習と他の2つの研究領域の関連性を確立する。
論文 参考訳(メタデータ) (2022-05-19T14:28:40Z) - Multi-task Representation Learning with Stochastic Linear Bandits [29.8208189270894]
線形バンディットタスクの設定におけるトランスファーラーニングの問題について検討する。
我々は,タスク間で低次元線形表現が共有されていると考え,マルチタスク学習環境において,この表現を学習するメリットについて検討する。
論文 参考訳(メタデータ) (2022-02-21T09:26:34Z) - Discovering Non-monotonic Autoregressive Orderings with Variational
Inference [67.27561153666211]
我々は、訓練データから高品質な生成順序を純粋に検出する、教師なし並列化可能な学習装置を開発した。
エンコーダを非因果的注意を持つトランスフォーマーとして実装し、1つのフォワードパスで置換を出力する。
言語モデリングタスクにおける経験的結果から,我々の手法は文脈認識であり,一定の順序と競合する,あるいはより優れた順序を見つけることができる。
論文 参考訳(メタデータ) (2021-10-27T16:08:09Z) - MLE-guided parameter search for task loss minimization in neural
sequence modeling [83.83249536279239]
ニューラル自己回帰シーケンスモデルは、さまざまな自然言語処理(NLP)タスクのシーケンスを生成するために使用される。
本稿では,現在のパラメータとその周辺における乱探索の混合である更新方向の分布から,最大至適勾配の分布をサンプリングする,最大至適誘導パラメータ探索(MGS)を提案する。
以上の結果から,MGS は,機械翻訳における最小リスクトレーニングに比べて,繰り返しや非終端の大幅な削減を図り,シーケンスレベルの損失を最適化できることが示唆された。
論文 参考訳(メタデータ) (2020-06-04T22:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。