論文の概要: One-Pass Learning via Bridging Orthogonal Gradient Descent and Recursive Least-Squares
- arxiv url: http://arxiv.org/abs/2207.13853v2
- Date: Tue, 21 Oct 2025 17:38:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:01.035959
- Title: One-Pass Learning via Bridging Orthogonal Gradient Descent and Recursive Least-Squares
- Title(参考訳): 直交勾配の老化と再帰的最小二乗によるワンパス学習
- Authors: Youngjae Min, Namhoon Cho, Navid Azizan,
- Abstract要約: 本研究では,従来のデータポイントを再学習することなく,逐次到着するデータに対してモデルを訓練するワンパス学習の問題点について検討する。
我々は,従来のデータポイントの予測を最小限に変更しつつ,各データポイントに完全に適合するワンパス学習アルゴリズムOrthogonal Recursive Fitting (ORFit)を提案する。
- 参考スコア(独自算出の注目度): 5.430441358049335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large machine learning models have shown remarkable performance in various domains, their training typically requires iterating for many passes over the training data. However, due to computational and memory constraints and potential privacy concerns, storing and accessing all the data is impractical in many real-world scenarios where the data arrives in a stream. In this paper, we investigate the problem of one-pass learning, in which a model is trained on sequentially arriving data without retraining on previous datapoints. Motivated by the demonstrated effectiveness of overparameterized models and the phenomenon of benign overfitting, we propose Orthogonal Recursive Fitting (ORFit), an algorithm for one-pass learning which seeks to perfectly fit each new datapoint while minimally altering the predictions on previous datapoints. ORFit updates the parameters in a direction orthogonal to past gradients, similar to orthogonal gradient descent (OGD) in continual learning. We show that, interestingly, ORFit's update leads to an operation similar to the recursive least-squares (RLS) algorithm in adaptive filtering but with significantly improved memory and computational efficiency, i.e., linear, instead of quadratic, in the number of parameters. To further reduce memory usage, we leverage the structure of the streaming data via an incremental principal component analysis (IPCA). We show that using the principal components is minimax optimal, i.e., it minimizes the worst-case forgetting of previous predictions for unknown future updates. Further, we prove that, for overparameterized linear models, the parameter vector obtained by ORFit matches what the standard multi-pass stochastic gradient descent (SGD) would converge to. Finally, we extend our results to the nonlinear setting for highly overparameterized models, relevant for deep learning.
- Abstract(参考訳): 大規模な機械学習モデルは、さまざまな領域で顕著なパフォーマンスを示しているが、そのトレーニングは通常、トレーニングデータよりも多くのパスを反復する必要がある。
しかし、計算とメモリの制約と潜在的なプライバシー上の懸念のため、すべてのデータの保存とアクセスは、データがストリームに到着する多くの現実のシナリオでは現実的ではない。
本稿では,従来のデータポイントを再学習することなく,逐次到着するデータに対してモデルを訓練するワンパス学習の問題点について考察する。
過度パラメータ化モデルの有効性と良性オーバーフィット現象を実証し,従来のデータポイントの予測を最小限に修正しつつ,各データポイントに完全に適合するワンパス学習アルゴリズムであるOrthogonal Recursive Fitting(ORFit)を提案する。
ORFitは、連続学習における直交勾配降下(OGD)と同様、過去の勾配に直交する方向のパラメータを更新する。
興味深いことに、ORFitの更新は適応フィルタリングにおける再帰最小二乗法(RLS)アルゴリズムに類似した動作をもたらすが、メモリと計算効率は大幅に改善されている。
メモリ使用量を削減するため,インクリメンタルプリンシパル・コンポーネント分析(IPCA)を用いてストリーミングデータの構造を利用する。
主成分の使用が最小限最適であること、すなわち、未知の将来の更新に対する過去の予測を忘れる最悪のケースを最小化することを示す。
さらに、過パラメータ化線形モデルに対して、ORFitによって得られたパラメータベクトルは、標準マルチパス確率勾配勾配(SGD)が収束するものと一致することを証明した。
最後に,本研究の結果を,深層学習に関連する高度パラメータ化モデルに対する非線形設定に拡張する。
関連論文リスト
- Generating Skyline Datasets for Data Science Models [11.454081868173725]
本稿では,複数のユーザ定義モデルパフォーマンス尺度を最適化することにより,データセットを検出するフレームワークであるMODisを紹介する。
スカイラインデータセットを生成するための3つの実現可能なアルゴリズムを導出する。
スカイラインデータ探索アルゴリズムの有効性と有効性を実験的に検証した。
論文 参考訳(メタデータ) (2025-02-16T20:33:59Z) - Provably Efficient Online RLHF with One-Pass Reward Modeling [59.30310692855397]
本稿では,過去のデータを保存する必要がなく,一定時間で計算できるワンパス報酬モデリング手法を提案する。
提案手法は,統計的および計算効率の両面で向上することを示す理論的保証を提供する。
我々はUltrafeedback-binarizedおよびMixture2データセット上でLlama-3-8B-InstructとQwen2.5-7B-Instructモデルを用いて実験を行った。
論文 参考訳(メタデータ) (2025-02-11T02:36:01Z) - Online Learning Under A Separable Stochastic Approximation Framework [20.26530917721778]
分離可能な近似フレームワークを用いて,機械学習モデルのクラスに対するオンライン学習アルゴリズムを提案する。
提案アルゴリズムは,他の一般的な学習アルゴリズムと比較して,より堅牢でテスト性能が高いことを示す。
論文 参考訳(メタデータ) (2023-05-12T13:53:03Z) - Unsupervised Learning of Initialization in Deep Neural Networks via
Maximum Mean Discrepancy [74.34895342081407]
本稿では,入力データに対する優れた初期化を求めるための教師なしアルゴリズムを提案する。
まず、パラメータ空間における各パラメータ構成が、d-way分類の特定の下流タスクに対応することに気付く。
次に、学習の成功は、初期パラメータの近傍で下流タスクがいかに多様であるかに直接関連していると推測する。
論文 参考訳(メタデータ) (2023-02-08T23:23:28Z) - Efficient Parametric Approximations of Neural Network Function Space
Distance [6.117371161379209]
モデルパラメータとトレーニングデータの重要な特性をコンパクトに要約して、データセット全体を保存または/または反復することなく後で使用できるようにすることが、しばしば有用である。
我々は,FSD(Function Space Distance)をトレーニングセット上で推定することを検討する。
本稿では、線形化活性化TRick (LAFTR) を提案し、ReLUニューラルネットワークに対するFSDの効率的な近似を導出する。
論文 参考訳(メタデータ) (2023-02-07T15:09:23Z) - A Hybrid Framework for Sequential Data Prediction with End-to-End
Optimization [0.0]
オンライン環境での非線形予測について検討し,手作業による特徴や手作業によるモデル選択の問題を効果的に緩和するハイブリッドモデルを提案する。
逐次データからの適応的特徴抽出にはLSTM(Recurrent Neural Network)、効果的な教師付き回帰には勾配強化機構(soft GBDT)を用いる。
本稿では, 合成データに対するアルゴリズムの学習挙動と, 各種実生活データセットに対する従来の手法による性能改善について述べる。
論文 参考訳(メタデータ) (2022-03-25T17:13:08Z) - Implicit Parameter-free Online Learning with Truncated Linear Models [51.71216912089413]
パラメータフリーアルゴリズムは、設定された学習率を必要としないオンライン学習アルゴリズムである。
そこで我々は,「単純」なフレーバーを持つ新しい更新によって,切り離された線形モデルを活用できる新しいパラメータフリーアルゴリズムを提案する。
後悔の新たな分解に基づいて、新しい更新は効率的で、各ステップで1つの勾配しか必要とせず、切り捨てられたモデルの最小値をオーバーシュートすることはない。
論文 参考訳(メタデータ) (2022-03-19T13:39:49Z) - Transfer-Learning Across Datasets with Different Input Dimensions: An
Algorithm and Analysis for the Linear Regression Case [7.674023644408741]
本稿では,新しいデータと過去のデータを異なる入力次元で組み合わせた転送学習アルゴリズムを提案する。
提案手法は,9つの実生活データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-02-10T14:57:15Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - Online Robust and Adaptive Learning from Data Streams [22.319483572757097]
オンライン学習では、アウトレーヤにしっかりと学習し、基盤となるデータ生成メカニズムの変化に迅速に適応する必要がある。
本稿では,従来のオンライン学習アルゴリズムの属性をロバスト性,後者を適応性と呼ぶ。
本稿では,このトレードオフを評価するために,近似に基づくロバスト性適応アルゴリズム(SRA)を提案する。
論文 参考訳(メタデータ) (2020-07-23T17:49:04Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。