論文の概要: "How Big is Big Enough?" Adjusting Model Size in Continual Gaussian Processes
- arxiv url: http://arxiv.org/abs/2408.07588v1
- Date: Wed, 14 Aug 2024 14:40:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 12:53:17.526467
- Title: "How Big is Big Enough?" Adjusting Model Size in Continual Gaussian Processes
- Title(参考訳): 「大きすぎるか」 : 連続ガウス過程におけるモデルサイズ調整
- Authors: Guiomar Pescador-Barrios, Sarah Filippi, Mark van der Wilk,
- Abstract要約: 多くの機械学習手法では、トレーニング前にモデルのキャパシティを制御するパラメータを設定する必要がある。
「これは、どのくらい大きいのか」という疑問に繋がる。
ここでは、データが段階的に利用可能になり、最終的なデータセットサイズがトレーニング前に分からない。
ほぼ最適性能を維持しつつ,これを自動調整する手法を提案する。
- 参考スコア(独自算出の注目度): 11.43983519639935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For many machine learning methods, creating a model requires setting a parameter that controls the model's capacity before training, e.g.~number of neurons in DNNs, or inducing points in GPs. Increasing capacity improves performance until all the information from the dataset is captured. After this point, computational cost keeps increasing, without improved performance. This leads to the question ``How big is big enough?'' We investigate this problem for Gaussian processes (single-layer neural networks) in continual learning. Here, data becomes available incrementally, and the final dataset size will therefore not be known before training, preventing the use of heuristics for setting the model size. We provide a method that automatically adjusts this, while maintaining near-optimal performance, and show that a single hyperparameter setting for our method performs well across datasets with a wide range of properties.
- Abstract(参考訳): 多くの機械学習手法において、モデルを作成するには、トレーニング前にモデルのキャパシティを制御するパラメータを設定する必要がある。
キャパシティの増大は、データセットからのすべての情報がキャプチャされるまでパフォーマンスを改善する。
この時点以降、計算コストは向上することなく増加し続ける。
これは、連続学習におけるガウス的プロセス(単層ニューラルネットワーク)に対するこの問題を調査する。
ここでは、データが段階的に利用可能になり、最終的なデータセットサイズがトレーニング前に知られなくなるため、モデルサイズの設定にヒューリスティックスの使用が防止される。
ほぼ最適性能を維持しながら、これを自動で調整し、本手法の1つのハイパーパラメータ設定が幅広い特性を持つデータセット間で良好に動作することを示す方法を提案する。
関連論文リスト
- Fast training of large kernel models with delayed projections [14.459817519150997]
データサイズとモデルサイズの両方で効率よくスケールできるカーネルマシンを構築するための新しい手法を提案する。
提案アルゴリズムでは,PSGD(Preconditioned Gradient Descent)に遅延プロジェクションを導入し,従来よりもはるかに大きなモデルのトレーニングを可能にする。
提案アルゴリズムであるEigenPro4を検証し,既存の手法よりも格段に高速な学習速度を示しながら,比較あるいはより優れた分類精度を維持した。
論文 参考訳(メタデータ) (2024-11-25T18:42:13Z) - Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。
この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文 参考訳(メタデータ) (2024-11-01T21:11:48Z) - Scaling Retrieval-Based Language Models with a Trillion-Token Datastore [85.4310806466002]
検索ベースLMが使用するデータストアのサイズを増大させることで,言語モデリングや下流タスクを一元的に改善できることがわかった。
データストア、モデル、事前学習データサイズで計算最適スケーリング曲線をプロットすることにより、より大きなデータストアを使用することで、同じトレーニング計算予算のモデル性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-09T08:27:27Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Bad Students Make Great Teachers: Active Learning Accelerates Large-Scale Visual Understanding [9.112203072394648]
パワーロースケーリングは、均一サンプリングによる大規模トレーニングが違法に遅いことを示している。
アクティブな学習手法は、最も関係のある事例に基づいて学習を優先順位付けすることで、データの効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2023-12-08T19:26:13Z) - Efficiently Robustify Pre-trained Models [18.392732966487582]
大規模モデルの現実的な設定に対する堅牢性は、いまだ探索されていないトピックである。
まず、異なる摂動とデータセットの下でこれらのモデルのパフォーマンスをベンチマークします。
続いて、大規模ネットワークにおいて、モデルファインチューニングに基づく既存のロバスト化スキームが拡張性に欠ける可能性について論じる。
論文 参考訳(メタデータ) (2023-09-14T08:07:49Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Training Neural Networks with Fixed Sparse Masks [19.58969772430058]
最近の研究では、トレーニング中にモデルのパラメータの小さなサブセットだけを更新できることが示されている。
モデルのパラメータに固定されたスパースマスクを誘導し、サブセットを選択して複数のイテレーションで更新できることが示される。
論文 参考訳(メタデータ) (2021-11-18T18:06:01Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。