論文の概要: Fast training of large kernel models with delayed projections
- arxiv url: http://arxiv.org/abs/2411.16658v1
- Date: Mon, 25 Nov 2024 18:42:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:23:55.391592
- Title: Fast training of large kernel models with delayed projections
- Title(参考訳): 遅延プロジェクションを用いた大型カーネルモデルの高速訓練
- Authors: Amirhesam Abedsoltan, Siyuan Ma, Parthe Pandit, Mikhail Belkin,
- Abstract要約: データサイズとモデルサイズの両方で効率よくスケールできるカーネルマシンを構築するための新しい手法を提案する。
提案アルゴリズムでは,PSGD(Preconditioned Gradient Descent)に遅延プロジェクションを導入し,従来よりもはるかに大きなモデルのトレーニングを可能にする。
提案アルゴリズムであるEigenPro4を検証し,既存の手法よりも格段に高速な学習速度を示しながら,比較あるいはより優れた分類精度を維持した。
- 参考スコア(独自算出の注目度): 14.459817519150997
- License:
- Abstract: Classical kernel machines have historically faced significant challenges in scaling to large datasets and model sizes--a key ingredient that has driven the success of neural networks. In this paper, we present a new methodology for building kernel machines that can scale efficiently with both data size and model size. Our algorithm introduces delayed projections to Preconditioned Stochastic Gradient Descent (PSGD) allowing the training of much larger models than was previously feasible, pushing the practical limits of kernel-based learning. We validate our algorithm, EigenPro4, across multiple datasets, demonstrating drastic training speed up over the existing methods while maintaining comparable or better classification accuracy.
- Abstract(参考訳): 従来のカーネルマシンは、大規模なデータセットやモデルサイズへのスケーリングにおいて、歴史的に重大な課題に直面してきた。
本稿では,データサイズとモデルサイズの両方で効率よくスケール可能なカーネルマシンを構築するための新しい手法を提案する。
提案アルゴリズムでは,プリコンディショニングされた確率勾配 Descent (PSGD) に遅延プロジェクションを導入し,従来よりもはるかに大きなモデルのトレーニングを可能にし,カーネルベース学習の実践的限界を推し進める。
アルゴリズムであるEigenPro4を複数のデータセットにまたがって検証し、同等あるいはより良い分類精度を維持しながら、既存のメソッドに対する大幅なトレーニング速度を実証した。
関連論文リスト
- Ex Uno Pluria: Insights on Ensembling in Low Precision Number Systems [16.89998201009075]
ディープニューラルネットワークの組み立ては、一般化性能を改善することを約束している。
本稿では,低精度数値システム内の単一モデルからアンサンブル部材を導出する,低精度アンサンブルを提案する。
実験により,既存のアンサンブル手法と比較し,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-11-22T11:18:20Z) - Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。
この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文 参考訳(メタデータ) (2024-11-01T21:11:48Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Fast-NTK: Parameter-Efficient Unlearning for Large-Scale Models [17.34908967455907]
マシン・アンラーニング'は、スクラッチから再トレーニングすることなく、不要なデータの選択的削除を提案する。
Fast-NTKはNTKベースの新しいアンラーニングアルゴリズムであり、計算複雑性を大幅に削減する。
論文 参考訳(メタデータ) (2023-12-22T18:55:45Z) - Efficiently Robustify Pre-trained Models [18.392732966487582]
大規模モデルの現実的な設定に対する堅牢性は、いまだ探索されていないトピックである。
まず、異なる摂動とデータセットの下でこれらのモデルのパフォーマンスをベンチマークします。
続いて、大規模ネットワークにおいて、モデルファインチューニングに基づく既存のロバスト化スキームが拡張性に欠ける可能性について論じる。
論文 参考訳(メタデータ) (2023-09-14T08:07:49Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Toward Large Kernel Models [16.704246627541103]
本稿では,2つのプレコンディショニングSGDに基づくアルゴリズムであるEigenPro 3.0を紹介する。
既存のカーネルメソッドでは不可能なモデルとデータサイズへのスケーリングを示す。
論文 参考訳(メタデータ) (2023-02-06T07:57:50Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。