論文の概要: Panther: Faster and Cheaper Computations with Randomized Numerical Linear Algebra
- arxiv url: http://arxiv.org/abs/2601.15473v1
- Date: Wed, 21 Jan 2026 21:23:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.416788
- Title: Panther: Faster and Cheaper Computations with Randomized Numerical Linear Algebra
- Title(参考訳): ランダム化数値線形代数を用いた高速・チーパ計算
- Authors: Fahd Seddik, Abdulrahman Elbedewy, Gaser Sami, Mohamed Abdelmoniem, Yahia Zakaria,
- Abstract要約: 我々は、既存のRandNLAアルゴリズムを単一の高性能フレームワークに統合するPyTorch互換ライブラリであるPantherを紹介する。
我々はRandNLA技術の有効性とPantherの採用容易性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training modern deep learning models is increasingly constrained by GPU memory and compute limits. While Randomized Numerical Linear Algebra (RandNLA) offers proven techniques to compress these models, the lack of a unified, production-grade library prevents widely adopting these methods. We present Panther, a PyTorch-compatible library that consolidates established RandNLA algorithms into a single high-performance framework. Panther engineers efficient, drop-in replacements for standard components including sketched linear layers, 2D convolution, multi-head attention, and randomized matrix decompositions (such as pivoted CholeskyQR). By implementing a custom C++/CUDA backend (pawX), Panther provides an optimized implementation that can run on both CPUs and GPUs. We demonstrate the effectiveness of RandNLA techniques and Panther's ease of adoption. By replacing standard PyTorch linear layers with Panther layers (requiring only a few lines of code) we achieve significant memory savings (up to 75%) on BERT while maintaining comparable loss. Source code is available (MIT License) at https://github.com/FahdSeddik/panther, along with demonstration video at https://youtu.be/7M3RQb4KWxs.
- Abstract(参考訳): 現代のディープラーニングモデルのトレーニングは、GPUメモリと計算制限によってますます制限されている。
Randomized Numerical Linear Algebra (RandNLA) はこれらのモデルを圧縮するための実証された技術を提供しているが、統一されたプロダクショングレードライブラリの欠如はこれらの手法を広く採用することを妨げる。
我々は、既存のRandNLAアルゴリズムを単一の高性能フレームワークに統合するPyTorch互換ライブラリであるPantherを紹介する。
パンサーエンジニアは効率的で、スケッチされた線形層、2D畳み込み、マルチヘッドアテンション、ランダム化された行列分解(例えばColeskyQR)を含む標準コンポーネントのドロップイン置換を行う。
カスタムC++/CUDAバックエンド(pawX)を実装することで、PantherはCPUとGPUの両方で実行できる最適化された実装を提供する。
我々はRandNLA技術の有効性とPantherの採用容易性を示す。
標準的なPyTorchリニアレイヤをPantherレイヤ(わずか数行のコードしか必要としない)に置き換えることによって、BERT上では、同等の損失を維持しながら、大幅なメモリ節約(最大75%)を実現しています。
ソースコードはhttps://github.com/FahdSeddik/pantherで、デモビデオはhttps://youtu.be/7M3RQb4KWxsで入手できる。
関連論文リスト
- Memory-Efficient Acceleration of Block Low-Rank Foundation Models on Resource Constrained GPUs [11.45717904490388]
トランスフォーマーベースの基盤モデルの最近の進歩は、多くのタスクのデフォルト選択となった。
その急速に成長するサイズは、単一のGPUに完全なモデルを適合させることがますます難しくなり、計算コストが禁じられる。
ブロック低ランク(BLR)圧縮技術は、重み行列のコンパクト表現を学習することでこの問題に対処する。
論文 参考訳(メタデータ) (2025-12-24T00:41:13Z) - StelLA: Subspace Learning in Low-rank Adaptation using Stiefel Manifold [51.93627542334909]
低ランク適応(LoRA)は大規模事前訓練モデルのパラメータ効率向上手法として広く採用されている。
3要素分解$U!SVtop$を使用するLoRAの幾何学的拡張を提案する。
論文 参考訳(メタデータ) (2025-10-02T11:59:13Z) - MaskPro: Linear-Space Probabilistic Learning for Strict (N:M)-Sparsity on Large Language Models [53.36415620647177]
半構造化された空間は、M$M$の重みからN$の要素を戦略的に保持することで、有望なソリューションを提供する。
既存の(N:M)互換のアプローチは通常、かなりのエラーに悩まされるルールベースの階層的な欲求探索と、禁止的なトレーニングコストを引き起こす勾配駆動学習の2つのカテゴリに分類される。
MaskProという新しい線形空間確率的フレームワークを提案する。これは、M$連続重みごとに事前のカテゴリー分布を学習し、その後、この分布を活用して(N:M)スパーシリティを$N$-wayサンプリングを通じて生成することを目的としている。
論文 参考訳(メタデータ) (2025-06-15T15:02:59Z) - Keras Sig: Efficient Path Signature Computation on GPU in Keras 3 [0.0]
Keras Sigは、ディープラーニングアプリケーションのためのパスシグネチャを計算するために設計された高性能なピソニックライブラリである。
Keras 3で新たに構築された textitKeras Sig は PyTorch や JAX,GPU など,広く使用されているディープラーニングバックエンドとのシームレスな統合を活用している。
論文 参考訳(メタデータ) (2025-01-14T22:00:01Z) - iSpLib: A Library for Accelerating Graph Neural Networks using Auto-tuned Sparse Operations [1.3030767447016454]
iSpLibは、自動調整されたスパース操作を備えたPyTorchベースのC++ライブラリである。
iSpLibは、CPU上のPyTorch 2.1.0とPyTorch Geometric 2.4.0と同等のPyTorch 2.1.0と比較して、最大27倍のトレーニングスピードアップが得られることを示した。
論文 参考訳(メタデータ) (2024-03-21T21:56:44Z) - DYAD: A Descriptive Yet Abjuring Density efficient approximation to
linear neural network layers [19.949611634077634]
我々はDYADを考案し、実装し、性能評価する。DYADは線形層を高速でよりメモリ効率の良い近似的に置き換えることができる。
DYADは、行列がそのような層、a.a.DENSEの典型的な実現において入力を乗算する濃厚な「重い」行列Wを近似するベスポーク近傍スパース行列構造に基づいている。
論文 参考訳(メタデータ) (2023-12-11T23:04:48Z) - XLB: A differentiable massively parallel lattice Boltzmann library in Python [0.0]
JAX プラットフォームをベースとした Python ベースの差別化可能な LBM ライブラリである XLB ライブラリを紹介する。
XLBの差別化性とデータ構造は、広範囲にわたるJAXベースの機械学習エコシステムと互換性がある。
XLBは数十億のセルでのシミュレーション処理に成功し、毎秒ギガスケールの格子更新を実現している。
論文 参考訳(メタデータ) (2023-11-27T18:50:37Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - Compressing 1D Time-Channel Separable Convolutions using Sparse Random
Ternary Matrices [65.4388266814055]
1次元時間チャネル分離可能な畳み込みの1x1-畳み込みを、定数でスパースな乱数三元行列で-1,0,+1$の重みで置き換える。
Google Speech Commands v1のコマンド認識のために、最新の精度を同じネットワークサイズで97.21%$から97.41%$に改善します。
librispeech上での音声認識では、トレーニングすべき重みの数は半分になり、浮動小数点ベースラインの単語誤り率の約1%を犠牲にします。
論文 参考訳(メタデータ) (2021-03-31T15:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。