論文の概要: Compressing Transformer Language Models via Matrix Product Operator Decomposition: A Case Study on PicoGPT
- arxiv url: http://arxiv.org/abs/2603.28534v1
- Date: Mon, 30 Mar 2026 14:57:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.459763
- Title: Compressing Transformer Language Models via Matrix Product Operator Decomposition: A Case Study on PicoGPT
- Title(参考訳): 行列積演算子分解による変圧器言語モデル圧縮:PicoGPTを事例として
- Authors: Younes Javanmard, Tanmoy Pandit, Masoud Mardani,
- Abstract要約: トランスフォーマーベースの言語モデルは、NLPタスク間で強力なパフォーマンスを実現するが、その2次パラメータスケーリングは、リソース制約のあるハードウェアへのデプロイを高くする。
変圧器の原理圧縮法として行列積演算子分解について検討する。
MPOは、重み行列を低ランクコアの鎖に分解し、近似品質は結合次元chiによって制御される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based language models achieve strong performance across NLP tasks, but their quadratic parameter scaling with hidden dimension makes deployment on resource-constrained hardware expensive. We study Matrix Product Operator (MPO) decomposition as a principled compression method for transformers. MPO factorises weight matrices into chains of low-rank cores, with approximation quality controlled by the bond dimension chi. We replace every nn.Linear layer in PicoGPT, a GPT-2-style character-level language model with about 1M parameters, with an MPOLinear module parameterised as an MPO chain. Cores are initialised either by TT-SVD from pretrained dense weights or from random initialisation, and trained using standard PyTorch autograd without a custom backward pass. We derive balanced factorisation schemes for the five distinct weight shapes in PicoGPT and evaluate bond dimensions chi in {4, 8, 16, 32} on Tiny Shakespeare. MPO compression achieves up to 13x compression per transformer block at chi = 4. At chi = 16, the model uses 191,872 parameters instead of 1,020,224 while retaining 97.7% of baseline token accuracy (51.6% vs 52.8%). Reconstruction error follows the expected trend and is lower for three-site than two-site factorisations at the same bond dimension. The chi = 8 model gives the best accuracy per parameter, exceeding the dense baseline by 2.7x on this metric. These results show that MPO parameterisation is a practical and theoretically grounded alternative to low-rank methods and unstructured pruning for transformer compression.
- Abstract(参考訳): トランスフォーマーベースの言語モデルは、NLPタスク間で強力なパフォーマンスを実現するが、その2次パラメータスケーリングは、リソース制約のあるハードウェアへのデプロイを高くする。
変圧器の原理圧縮法として, マトリックス製品演算子 (MPO) の分解について検討した。
MPOは、重み行列を低ランクコアの鎖に分解し、近似品質は結合次元chiによって制御される。
約1MパラメータのGPT-2スタイルの文字レベル言語モデルであるPicoGPTのすべてのnn.Linear層をMPOチェインとしてパラメータ化したMPOLinearモジュールに置き換える。
コアは、事前訓練された高密度重量からTT-SVDまたはランダム初期化から初期化され、カスタムバックワードパスなしで標準のPyTorchオートグレードを使用してトレーニングされる。
我々は,PicoGPTの5つの異なる重み形状に対する平衡因子化スキームを導出し,Tiny Shakespeare 上の {4, 8, 16, 32} における結合次元chi を評価する。
MPO圧縮は、chi = 4でトランスブロック当たり最大13倍圧縮を達成する。
chi = 16では1020,224の代わりに191,872パラメータを使用し、ベースライントークンの精度は97.7%(51.6%対52.8%)である。
レコンストラクションの誤差は予想される傾向に従い、同じ結合次元の2部位の分解よりも3部位の方が低い。
chi = 8 モデルはパラメータごとの最良の精度を与え、この計量で密度の高いベースラインを2.7倍超える。
これらの結果から,MPOのパラメータ化は,変圧器圧縮のための低ランク法や非構造プルーニングに代わる実用的で理論的に基礎的手法であることが示唆された。
関連論文リスト
- MLPMoE: Zero-Shot Architectural Metamorphosis of Dense LLM MLPs into Static Mixture-of-Experts [0.0]
大規模言語モデル(LLM)は、主に高密度トランスフォーマーとしてデプロイされ、すべてのトークンに対してフィードフォワードブロック内の全てのパラメータがアクティブになる。
MoEfication、CMoE、ToMoE、MoOREといった最近のアップサイクリング手法は、高密度フィードフォワードネットワーク内の疎小で半モジュラーなサブ構造に有用な計算の大部分が存在していることを明らかにしている。
本稿では,高密度の変圧器ブロックを静的な高心性混合体に再構成する学習自由変換であるMoE(MLP-Experts)を紹介する。
論文 参考訳(メタデータ) (2025-11-26T06:14:26Z) - Singular Value Decomposition on Kronecker Adaptation for Large Language Model [0.8747606955991707]
大規模な事前訓練されたトランスフォーマーモデルは、様々な言語や推論タスクにまたがって最先端の結果が得られる。
完全な微調整は、かなりのストレージ、メモリ、計算オーバーヘッドを発生させる。
我々は, Kronecker-product tensor factorization と SVD-driven initialization と Dynamic rank selection を組み合わせた新しい PEFT 戦略である SoKA を提案する。
論文 参考訳(メタデータ) (2025-06-18T08:28:53Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。
SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文 参考訳(メタデータ) (2024-04-04T15:23:14Z) - DSFormer: Effective Compression of Text-Transformers by Dense-Sparse
Weight Factorization [12.277820111814691]
DSFormerは、ターゲットの重み行列を小さな密度と半構造化されたスパース行列の積として表現する単純な代替因数分解スキームである。
我々のアプローチは、主流圧縮機にも当てはまり、一般的な蒸留、層共有および量子化変換器に追加される場合、最大50%の圧縮を提供する。
論文 参考訳(メタデータ) (2023-12-20T17:27:25Z) - $\rm SP^3$: Enhancing Structured Pruning via PCA Projection [24.74632458058136]
本稿では,PCAプロジェクション(SP3)を用いた新規な構造化プルーニング手法を提案する。
実験の結果、SP3はdを70%削減し、BERTベースモデルの94%を圧縮し、96%以上の精度を維持し、同じ圧縮比でdを6%圧縮する他の方法よりも優れていた。
論文 参考訳(メタデータ) (2023-08-31T05:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。