論文の概要: When Good Enough Is Optimal: Multiplication-Only Matrix Inversion Approximation for Quantized Gated DeltaNet
- arxiv url: http://arxiv.org/abs/2606.06034v1
- Date: Thu, 04 Jun 2026 11:29:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.753091
- Title: When Good Enough Is Optimal: Multiplication-Only Matrix Inversion Approximation for Quantized Gated DeltaNet
- Title(参考訳): 量子ゲートデルタネットの乗算専用行列逆近似
- Authors: Luoming Zhang, Yuwei Ren, Kui Zhang, Tian Liu, Lingjuan Ge, Denghao Li, Matthew Harper Langston, Yin Huang, Weiliang Will Zeng, Liang Zhang,
- Abstract要約: チャンクワイド並列線形アテンションにおける行列インバージョンは、長期コンテキストモデリングにおける主要なボトルネックである。
厳密な下三角行列に適した高速行列乗算アルゴリズム(MatMul)を提案する。
Qwen3.5ファミリーモデルの実験では、カーネルレベルのスピードアップが最大5$times$であり、デコード層オーバーヘッドが20%削減されている。
- 参考スコア(独自算出の注目度): 10.055354775930487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Matrix inversion in chunk-wise parallel linear attention is a major bottleneck for long-context modeling, particularly on NPUs, where forward-substitution-based methods exhibit limited parallelism and poor hardware utilization. We propose a fast, Matrix Multiplication (MatMul)-based algorithm tailored for strictly lower-triangular matrices arising in chunk-wise linear attention. Motivated by the rapid growth of Neumann-series terms and the diagonal concentration of the inverse matrix, we employ a truncated Neumann expansion with structural masking and parallel residual correction to eliminate sequential dependencies. We further extend our method to low-bits INT by mitigating the dynamic range expansion arising from repeated matrix power operations, and adapt the approximation order and residual step to the chunk size to minimize computational cost while preserving the model's accuracy. Experiments on Qwen3.5-family models demonstrate up to 5$\times$ kernel-level speedup and a 20% reduction in decode-layer overhead, while preserving accuracy under both floating-point and low-precision inference. Our method offers an efficient and hardware-friendly solution for scalable linear attention.
- Abstract(参考訳): チャンクワイド並列注意における行列の逆転は、特にNPUにおいて長期コンテキストモデリングにおいて主要なボトルネックであり、フォワード置換に基づく手法は、限られた並列性とハードウェア利用の貧弱さを示す。
本稿では,チャンクワイド線形注意において生じる厳密な下三角行列に適した高速行列乗法(MatMul)に基づくアルゴリズムを提案する。
ニューマン系列項の急激な成長と逆行列の対角的濃度により、構造マスキングと並列残差補正を併用して、逐次依存を排除した。
さらに、繰り返し行列電力演算によるダイナミックレンジ拡大を緩和し、近似順序と残差をチャンクサイズに適応させ、モデルの精度を維持しながら計算コストを最小化することにより、低ビットINTに拡張する。
Qwen3.5ファミリーモデルの実験では、浮動小数点推定と低精度推定の両方で精度を保ちながら、カーネルレベルのスピードアップとデコード層のオーバーヘッドの20%削減を5$\times$で示す。
我々の手法は、スケーラブルな線形注意のための効率的でハードウェアフレンドリーなソリューションを提供する。
関連論文リスト
- Fast and Stable Triangular Inversion for Delta-Rule Linear Transformers [35.36704326614983]
デルタルールと呼ばれる線形注意層を組み込んだモデルでは、三角行列をコアサブルーチンとして逆転させる。
この研究は、行列積に富む手法をターゲットとした、直接的および反復的な三角反転アルゴリズムの体系的解析を提供する。
NPUのパフォーマンスベンチマークでは、三角行列逆転のためのSGLangの最先端実装に対して、最大4.3倍のスピードアップが示されている。
論文 参考訳(メタデータ) (2026-05-20T15:51:32Z) - GPU-friendly and Linearly Convergent First-order Methods for Certifying Optimal $k$-sparse GLMs [7.079949618914198]
ブランチ・アンド・バウンド(BnB)フレームワークは、パースペクティブ・リラクゼーションを使って最適性を証明できる。
これらの緩和を解く既存の手法は計算集約的であり、スケーラビリティを制限している。
我々は線形収束性と計算効率の両立した近位フレームワークを開発する。
論文 参考訳(メタデータ) (2026-03-01T22:26:09Z) - Orthogonal Finetuning Made Scalable [92.34573849209238]
OFT(Orthogonal Finetuning)は、壊滅的な忘れ込みを防止しつつ、パラメータ効率の高い適応を提供するが、実行時とメモリの要求が高いため、実際のデプロイメントが制限される。
ここでは,OFTの計算ボトルネックを重み中心の実装とみなす。
本稿では,行列ベクトル乗法(行列フリー計算)を用いて,計算コストを2次に削減する入力中心の変換法OFTv2を提案する。
これらの変更により、OFTv2は最大10倍の高速トレーニングと3倍のGPUメモリ使用率を達成することができる。
論文 参考訳(メタデータ) (2025-06-24T17:59:49Z) - An Alternative Graphical Lasso Algorithm for Precision Matrices [0.0]
本稿では,スパース精度行列を推定するためのDP-GLassoアルゴリズムを提案する。
正規化された正規対数型は自然に凸関数を最小化しやすい2つの和に分解するが、そのうちの1つはラッソ回帰問題である。
提案アルゴリズムは,最適化対象とする精度行列を最初から備えており,DP-GLassoアルゴリズムの良好な特性をすべて保持している。
論文 参考訳(メタデータ) (2024-03-19T02:01:01Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - High-Dimensional Sparse Bayesian Learning without Covariance Matrices [66.60078365202867]
共分散行列の明示的な構成を避ける新しい推論手法を提案する。
本手法では, 数値線形代数と共役勾配アルゴリズムの対角線推定結果とを結合する。
いくつかのシミュレーションにおいて,本手法は計算時間とメモリにおける既存手法よりも拡張性が高い。
論文 参考訳(メタデータ) (2022-02-25T16:35:26Z) - Sketching as a Tool for Understanding and Accelerating Self-attention
for Long Sequences [52.6022911513076]
トランスフォーマーベースのモデルは、自己アテンションモジュールの二次空間と時間的複雑さのために、長いシーケンスを処理するのに効率的ではない。
我々はLinformerとInformerを提案し、低次元投影と行選択により2次複雑性を線形(モジュラー対数因子)に還元する。
理論的解析に基づいて,Skeinformerを提案することにより,自己注意の促進と,自己注意への行列近似の精度の向上を図ることができる。
論文 参考訳(メタデータ) (2021-12-10T06:58:05Z) - Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via
GDPA Linearization [59.87663954467815]
アルゴリズムの展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で類似のニューラルネットワークアーキテクチャを生成する。
本稿では、Gershgorin disc perfect alignment (GDPA)と呼ばれる最近の線形代数定理を利用して、二進グラフの半定値プログラミング緩和(SDR)のためのプロジェクションフリーアルゴリズムをアンロールする。
実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示したが,パラメータははるかに少なかった。
論文 参考訳(メタデータ) (2021-09-10T07:01:15Z) - Fast Coherent Point Drift [4.369046007546103]
コヒーレント点ドリフト(CPD)は、非剛性点集合登録のための古典的な方法である。
単純な対応する制約を導入することで、PDの高速な実装を開発する。
3次元点雲データによる実験結果から,本手法は登録プロセスの負担を大幅に軽減できることが示された。
論文 参考訳(メタデータ) (2020-06-11T09:35:23Z) - Multi-Objective Matrix Normalization for Fine-grained Visual Recognition [153.49014114484424]
双線形プールは細粒度視覚認識(FGVC)において大きな成功を収める
近年,行列パワー正規化は双線形特徴量において2次情報を安定化させることができることが示されている。
両線形表現を同時に正規化できる効率的な多目的行列正規化法(MOMN)を提案する。
論文 参考訳(メタデータ) (2020-03-30T08:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。