論文の概要: HessFormer: Hessians at Foundation Scale
- arxiv url: http://arxiv.org/abs/2505.11564v1
- Date: Fri, 16 May 2025 08:27:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.705212
- Title: HessFormer: Hessians at Foundation Scale
- Title(参考訳): HessFormer: Foundation ScaleでのHessian
- Authors: Diego Granziol,
- Abstract要約: 我々は、よく知られたTransformersパッケージとうまく統合されたソフトウェアパッケージ textbfHessFormer をリリースします。
実装の根底にあるのは分散ベクトルランクゾスラチャーアルゴリズムで、パブリックな消費のためにリリースしています。
- 参考スコア(独自算出の注目度): 1.5410557873153836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Whilst there have been major advancements in the field of first order optimisation of deep learning models, where state of the art open source mixture of expert models go into the hundreds of billions of parameters, methods that rely on Hessian vector products, are still limited to run on a single GPU and thus cannot even work for models in the billion parameter range. We release a software package \textbf{HessFormer}, which integrates nicely with the well known Transformers package and allows for distributed hessian vector computation across a single node with multiple GPUs. Underpinning our implementation is a distributed stochastic lanczos quadrature algorithm, which we release for public consumption. Using this package we investigate the Hessian spectral density of the recent Deepseek $70$bn parameter model.
- Abstract(参考訳): ディープラーニングモデルの1次最適化の分野では、最先端のオープンソースミックスが数十億のパラメータに入るという大きな進歩があったが、Hessianベクター製品に依存する方法はまだ1つのGPU上でしか動作せず、数十億のパラメータ範囲のモデルでは動作できない。
ソフトウェアパッケージである \textbf{HessFormer} は、よく知られたTransformersパッケージとうまく統合され、複数のGPUを持つ単一ノードにまたがる分散ヘシアンベクトル計算を可能にする。
我々の実装の根底にあるのは、公共消費のためにリリースした分散確率的ランチョス二次アルゴリズムである。
このパッケージを用いて、最近のDeepseek $70$bnパラメータモデルのヘッセンスペクトル密度を調べる。
関連論文リスト
- Cramer Type Distances for Learning Gaussian Mixture Models by Gradient
Descent [0.0]
今日まで、ガウス混合モデルに適合または学習できる既知のアルゴリズムはほとんどない。
一般多変量GMM学習のためのスライスクラマー2距離関数を提案する。
これらの機能は、分散強化学習とディープQネットワークに特に有用である。
論文 参考訳(メタデータ) (2023-07-13T13:43:02Z) - Algorithms for perturbative analysis and simulation of quantum dynamics [0.0]
我々はダイソン級数とマグナス展開の両方を計算・利用するための汎用アルゴリズムを開発した。
モデルパラメータ空間の領域における忠実度を近似するためにこれらのツールの使い方を実証する。
計算前のステップを,元法よりも少ない項数で多変数展開問題と表現できることを示す。
論文 参考訳(メタデータ) (2022-10-20T21:07:47Z) - Multi-block-Single-probe Variance Reduced Estimator for Coupled
Compositional Optimization [49.58290066287418]
構成問題の複雑さを軽減するために,MSVR (Multi-block-probe Variance Reduced) という新しい手法を提案する。
本研究の結果は, 試料の複雑さの順序や強靭性への依存など, 様々な面で先行して改善された。
論文 参考訳(メタデータ) (2022-07-18T12:03:26Z) - Minimax Optimal Quantization of Linear Models: Information-Theoretic
Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。
この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。
本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T02:39:04Z) - Oops I Took A Gradient: Scalable Sampling for Discrete Distributions [53.3142984019796]
このアプローチは、多くの困難な設定において、ジェネリックサンプリングよりも優れていることを示す。
また,高次元離散データを用いた深部エネルギーモデルトレーニングのための改良型サンプリング器についても実演した。
論文 参考訳(メタデータ) (2021-02-08T20:08:50Z) - Overcomplete order-3 tensor decomposition, blind deconvolution and
Gaussian mixture models [1.7970523486905976]
我々は,ジェンリッヒのアルゴリズムに基づくテンソル分解の新しいアルゴリズムを提案し,新しいアルゴリズムのアイデアをブラインドデコンボリューションとガウス混合モデルに適用する。
我々の最初の貢献は、ある対称超完全位数-3テンソルを分解する単純かつ効率的なアルゴリズムであり、すなわち、$a_i$s が線型独立でないような $T = sum_i=1n a_i otimes a_i otimes a_i$ という形の3次元配列である。
第2の貢献は、テンソル分解アルゴリズムの上に構築され、ファミリーを拡大する。
論文 参考訳(メタデータ) (2020-07-16T06:23:37Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z) - Linear-time inference for Gaussian Processes on one dimension [17.77516394591124]
本研究では,その線形スケーリング計算コストから,状態空間モデルが人気である1次元のサンプルデータについて検討する。
状態空間モデルは一般であり、任意の1次元ガウス過程を近似できるという予想の最初の一般的な証明を提供する。
LEGモデルで推論と学習を行う並列アルゴリズムを開発し、実データおよび合成データ上でアルゴリズムをテストし、数十億のサンプルを持つデータセットへのスケーリングを実証する。
論文 参考訳(メタデータ) (2020-03-11T23:20:13Z) - Learning Gaussian Graphical Models via Multiplicative Weights [54.252053139374205]
乗算重み更新法に基づいて,Klivans と Meka のアルゴリズムを適用した。
アルゴリズムは、文献の他のものと質的に類似したサンプル複雑性境界を楽しみます。
ランタイムが低い$O(mp2)$で、$m$サンプルと$p$ノードの場合には、簡単にオンライン形式で実装できる。
論文 参考訳(メタデータ) (2020-02-20T10:50:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。