論文の概要: Determinant Estimation under Memory Constraints and Neural Scaling Laws
- arxiv url: http://arxiv.org/abs/2503.04424v1
- Date: Thu, 06 Mar 2025 13:32:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:51.096144
- Title: Determinant Estimation under Memory Constraints and Neural Scaling Laws
- Title(参考訳): メモリ制約とニューラルスケーリング則に基づく決定的推定
- Authors: Siavash Ameli, Chris van der Heide, Liam Hodgkinson, Fred Roosta, Michael W. Mahoney,
- Abstract要約: メモリ制約設定における大規模対数決定式計算のための新しい階層的アルゴリズムを導出する。
擬似決定詞の比率が法則関係を満たすことを示し、対応するスケーリング法則を導出できるようにする。
これにより、完全なデータセットのごく一部からNTKログ行列式を正確に推定できる。
- 参考スコア(独自算出の注目度): 48.68885778257016
- License:
- Abstract: Calculating or accurately estimating log-determinants of large positive semi-definite matrices is of fundamental importance in many machine learning tasks. While its cubic computational complexity can already be prohibitive, in modern applications, even storing the matrices themselves can pose a memory bottleneck. To address this, we derive a novel hierarchical algorithm based on block-wise computation of the LDL decomposition for large-scale log-determinant calculation in memory-constrained settings. In extreme cases where matrices are highly ill-conditioned, accurately computing the full matrix itself may be infeasible. This is particularly relevant when considering kernel matrices at scale, including the empirical Neural Tangent Kernel (NTK) of neural networks trained on large datasets. Under the assumption of neural scaling laws in the test error, we show that the ratio of pseudo-determinants satisfies a power-law relationship, allowing us to derive corresponding scaling laws. This enables accurate estimation of NTK log-determinants from a tiny fraction of the full dataset; in our experiments, this results in a $\sim$100,000$\times$ speedup with improved accuracy over competing approximations. Using these techniques, we successfully estimate log-determinants for dense matrices of extreme sizes, which were previously deemed intractable and inaccessible due to their enormous scale and computational demands.
- Abstract(参考訳): 多くの機械学習タスクにおいて、大きな正の半定行列の対数行列を計算または正確に推定することは、基本的な重要性である。
その立方体計算の複雑さは、既に禁止されているが、現代のアプリケーションでは、行列自体を格納してもメモリボトルネックを引き起こす可能性がある。
そこで本研究では,メモリ制約条件下での大規模対数決定式計算のために,LDL分解のブロックワイズ計算に基づく新しい階層型アルゴリズムを導出する。
行列が極めて不条件である極端な場合、完全行列自体を正確に計算することは不可能である。
これは、大規模なデータセットでトレーニングされたニューラルネットワークの経験的ニューラルネットワーク(NTK)など、大規模なカーネル行列を考慮する場合に特に意味がある。
テストエラーにおけるニューラルスケーリング則の仮定の下では、擬似行列式の割合が、対応するスケーリング法則を導出できるように、パワー-ロー関係を満たすことが示される。
これにより、完全なデータセットのごく一部からNTKログ行列式を正確に推定することが可能となり、我々の実験では、競合する近似よりも精度が向上した$\sim$100,000$\times$ Speedupが実現された。
これらの手法を用いて, 大規模・計算的な要求により, 従来は難易度が高く, アクセス不能であった高密度行列の対数行列式を推定した。
関連論文リスト
- Large Language Model Evaluation via Matrix Nuclear-Norm [11.878496378814045]
本稿では,大規模言語モデル(LLM)のデータ圧縮精度を定量化するための指標として,マトリックス核ノルムを紹介する。
さらに、(L_1,2text-norm )を用いて核ノルムを近似することにより、モデルの情報圧縮能力を効果的に評価できる。
マトリックス核ノームは、CEREBRAS-GPTモデルにおいて、サイズが111Mから6.7Bに増加するにつれて、マトリックスエントロピーの8倍から24倍の速度を達成する。
論文 参考訳(メタデータ) (2024-10-14T16:15:57Z) - Large-Scale OD Matrix Estimation with A Deep Learning Method [70.78575952309023]
提案手法は,ディープラーニングと数値最適化アルゴリズムを統合し,行列構造を推論し,数値最適化を導出する。
大規模合成データセットを用いて,提案手法の優れた一般化性能を実証するために実験を行った。
論文 参考訳(メタデータ) (2023-10-09T14:30:06Z) - Randomized Polar Codes for Anytime Distributed Machine Learning [66.46612460837147]
本稿では,低速な計算ノードに対して堅牢で,線形演算の近似計算と精度の両立が可能な分散コンピューティングフレームワークを提案する。
本稿では,復号化のための計算複雑性を低く保ちながら,実数値データを扱うための逐次復号アルゴリズムを提案する。
大規模行列乗算やブラックボックス最適化など,様々な文脈において,このフレームワークの潜在的な応用を実証する。
論文 参考訳(メタデータ) (2023-09-01T18:02:04Z) - Large-scale gradient-based training of Mixtures of Factor Analyzers [67.21722742907981]
本稿では,勾配降下による高次元学習を効果的に行うための理論解析と新しい手法の両立に寄与する。
MFAトレーニングと推論/サンプリングは,学習終了後の行列逆変換を必要としない精度行列に基づいて行うことができることを示す。
理論解析と行列の他に,SVHNやMNISTなどの画像データセットにMFAを適用し,サンプル生成と外乱検出を行う能力を示す。
論文 参考訳(メタデータ) (2023-08-26T06:12:33Z) - Linearized Wasserstein dimensionality reduction with approximation
guarantees [65.16758672591365]
LOT Wassmap は、ワーッサーシュタイン空間の低次元構造を明らかにするための計算可能なアルゴリズムである。
我々は,LOT Wassmapが正しい埋め込みを実現し,サンプルサイズの増加とともに品質が向上することを示す。
また、LOT Wassmapがペア距離計算に依存するアルゴリズムと比較して計算コストを大幅に削減することを示す。
論文 参考訳(メタデータ) (2023-02-14T22:12:16Z) - Statistically Meaningful Approximation: a Case Study on Approximating
Turing Machines with Transformers [50.85524803885483]
本研究は,統計的学習性を示すために近似ネットワークを必要とする統計有意(SM)近似の形式的定義を提案する。
回路とチューリングマシンの2つの機能クラスに対するSM近似について検討する。
論文 参考訳(メタデータ) (2021-07-28T04:28:55Z) - The Fast Kernel Transform [21.001203328543006]
本稿では,FKT(Fast Kernel Transform:高速カーネル変換)を提案する。
FKT はガウス、マテルン、ラショナル四次共分散関数や物理的に動機付けられたグリーン関数など、幅広い種類のカーネルに容易に適用できる。
本稿では、時間と精度のベンチマークを提供することによりFKTの有効性と汎用性を説明し、それを近隣埋め込み(t-SNE)とガウス過程を大規模実世界のデータセットに拡張する。
論文 参考訳(メタデータ) (2021-06-08T16:15:47Z) - The Power of Log-Sum-Exp: Sequential Density Ratio Matrix Estimation for
Speed-Accuracy Optimization [0.0]
本稿では,時系列のマルチクラス分類モデルを提案する。
早期分類のためのアーキテクチャ MSPRT-TANDEM は、4つのデータセットのベースラインモデルよりも統計的に有意に優れている。
論文 参考訳(メタデータ) (2021-05-28T07:21:58Z) - Berrut Approximated Coded Computing: Straggler Resistance Beyond
Polynomial Computing [34.69732430310801]
本稿では,ストラグラー効果に対処する代替手法として,Berrut Approximated Coded Computing (BACC)を提案する。
BACCは計算複雑性が低い数値的に安定であることが証明されている。
特に、BACCは、サーバのクラスタ上でディープニューラルネットワークをトレーニングするために使用される。
論文 参考訳(メタデータ) (2020-09-17T14:23:38Z) - Relative gradient optimization of the Jacobian term in unsupervised deep
learning [9.385902422987677]
データを正しく記述した表現的確率モデルを学習することは、機械学習におけるユビキタスな問題である。
このタスクには深度モデルが広く使用されているが、その最大可能性に基づくトレーニングでは、ジャコビアンの対数行列式を推定する必要がある。
このようなニューラルネットワークの正確なトレーニングのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-26T16:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。