論文の概要: Toward Large Kernel Models
- arxiv url: http://arxiv.org/abs/2302.02605v2
- Date: Thu, 4 May 2023 19:58:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 17:02:01.301354
- Title: Toward Large Kernel Models
- Title(参考訳): 大型カーネルモデルに向けて
- Authors: Amirhesam Abedsoltan, Mikhail Belkin, Parthe Pandit
- Abstract要約: 本稿では,2つのプレコンディショニングSGDに基づくアルゴリズムであるEigenPro 3.0を紹介する。
既存のカーネルメソッドでは不可能なモデルとデータサイズへのスケーリングを示す。
- 参考スコア(独自算出の注目度): 16.704246627541103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies indicate that kernel machines can often perform similarly or
better than deep neural networks (DNNs) on small datasets. The interest in
kernel machines has been additionally bolstered by the discovery of their
equivalence to wide neural networks in certain regimes. However, a key feature
of DNNs is their ability to scale the model size and training data size
independently, whereas in traditional kernel machines model size is tied to
data size. Because of this coupling, scaling kernel machines to large data has
been computationally challenging. In this paper, we provide a way forward for
constructing large-scale general kernel models, which are a generalization of
kernel machines that decouples the model and data, allowing training on large
datasets. Specifically, we introduce EigenPro 3.0, an algorithm based on
projected dual preconditioned SGD and show scaling to model and data sizes
which have not been possible with existing kernel methods.
- Abstract(参考訳): 最近の研究では、カーネルマシンは小さなデータセット上で、ディープニューラルネットワーク(dnn)よりもよく、あるいはよりよく動作することが示されている。
カーネルマシンへの関心は、特定のレジームにおける広いニューラルネットワークに対する等価性の発見によってさらに高まっている。
しかしながら、dnnsの重要な特徴は、モデルサイズを独立してスケールし、データサイズをトレーニングする能力である。
この結合のため、カーネルマシンから大規模データへのスケーリングは計算的に困難である。
本稿では,大規模な汎用カーネルモデルの構築に向け,モデルとデータを分離したカーネルマシンを一般化し,大規模データセットのトレーニングを可能にする方法を提案する。
具体的には,プロジェクション付きデュアルプリコンディショニングsgdに基づくアルゴリズムであるeigenpro 3.0を導入し,既存のカーネルメソッドでは不可能だったモデルとデータサイズへのスケーリングを示す。
関連論文リスト
- Fast training of large kernel models with delayed projections [14.459817519150997]
データサイズとモデルサイズの両方で効率よくスケールできるカーネルマシンを構築するための新しい手法を提案する。
提案アルゴリズムでは,PSGD(Preconditioned Gradient Descent)に遅延プロジェクションを導入し,従来よりもはるかに大きなモデルのトレーニングを可能にする。
提案アルゴリズムであるEigenPro4を検証し,既存の手法よりも格段に高速な学習速度を示しながら,比較あるいはより優れた分類精度を維持した。
論文 参考訳(メタデータ) (2024-11-25T18:42:13Z) - Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。
この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文 参考訳(メタデータ) (2024-11-01T21:11:48Z) - Faithful and Efficient Explanations for Neural Networks via Neural
Tangent Kernel Surrogate Models [7.608408123113268]
我々は、データ属性の近似的経験的ニューラルネットワークカーネル(eNTK)を解析する。
そこで本研究では,時間とメモリの複雑さを調整可能な,近似eNTKの2つの新しいランダムプロジェクションモデルを提案する。
ニューラルネットワークカーネルをカーネル関数として用いたカーネルマシンは,効率的なサロゲートモデルである。
論文 参考訳(メタデータ) (2023-05-23T23:51:53Z) - Graph Neural Network-Inspired Kernels for Gaussian Processes in
Semi-Supervised Learning [4.644263115284322]
グラフニューラルネットワーク(GNN)は、半教師付き学習において、グラフ構造化データのモデルとして期待できるクラスとして最近登場した。
この帰納バイアスをGPに導入して,グラフ構造化データの予測性能を向上させる。
これらのグラフベースのカーネルは、各GNNと比較して、競合する分類と回帰性能、および時間の長所をもたらすことを示す。
論文 参考訳(メタデータ) (2023-02-12T01:07:56Z) - Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。
NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。
NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文 参考訳(メタデータ) (2022-10-14T18:00:07Z) - On-Device Domain Generalization [93.79736882489982]
ドメインの一般化はデバイス上の機械学習アプリケーションにとって重要である。
知識蒸留がこの問題の解決の有力な候補であることがわかった。
本研究では,教師が配布外データをどのように扱えるかを学生に教えることを目的とした,配布外知識蒸留(OKD)という簡単なアイデアを提案する。
論文 参考訳(メタデータ) (2022-09-15T17:59:31Z) - Kernel Methods and Multi-layer Perceptrons Learn Linear Models in High
Dimensions [25.635225717360466]
完全連結ネットワークのニューラルカーネルを含む多数のカーネルに対して、カーネル法は特定の高次元状態における線形モデルと同等にしか機能しないことを示す。
高次元解析には、独立な特徴以外のデータに対するより複雑なモデルが必要である。
論文 参考訳(メタデータ) (2022-01-20T09:35:46Z) - Rank-R FNN: A Tensor-Based Learning Model for High-Order Data
Classification [69.26747803963907]
Rank-R Feedforward Neural Network (FNN)は、そのパラメータにCanonical/Polyadic分解を課すテンソルベースの非線形学習モデルである。
まず、入力をマルチリニアアレイとして扱い、ベクトル化の必要性を回避し、すべてのデータ次元に沿って構造情報を十分に活用することができる。
Rank-R FNNの普遍的な近似と学習性の特性を確立し、実世界のハイパースペクトルデータセットのパフォーマンスを検証する。
論文 参考訳(メタデータ) (2021-04-11T16:37:32Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - Bayesian Sparse Factor Analysis with Kernelized Observations [67.60224656603823]
多視点問題は潜在変数モデルに直面することができる。
高次元問題と非線形問題は伝統的にカーネルメソッドによって扱われる。
両アプローチを単一モデルにマージすることを提案する。
論文 参考訳(メタデータ) (2020-06-01T14:25:38Z) - Omni-Scale CNNs: a simple and effective kernel size configuration for
time series classification [47.423272376757204]
時系列分類タスクにおける1次元畳み込みニューラルネットワーク(1D-CNN)において、受容場(RF)サイズは最も重要な要素の1つである。
1D-CNNのためのOmni-Scale Block (OS-block)を提案する。
実験の結果,OSブロックを持つモデルでは,探索された最適なRFサイズを持つモデルと同様の性能が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-24T03:33:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。