論文の概要: Compressing Large Language Models with PCA Without Performance Loss
- arxiv url: http://arxiv.org/abs/2508.04307v1
- Date: Wed, 06 Aug 2025 10:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.684947
- Title: Compressing Large Language Models with PCA Without Performance Loss
- Title(参考訳): 性能低下のないPCAを用いた大規模言語モデル圧縮
- Authors: Magnus Bengtsson,
- Abstract要約: 主成分分析は、性能を犠牲にすることなく、ニューラルネットワークの極端な圧縮を可能にすることを示す。
PCA圧縮極性MNISTで訓練された一層分類器は、840個のパラメータのみを用いて98%以上の精度を達成している。
70次元PCA-Reduced MiniLM埋め込みで訓練された2層トランスフォーマーは、20 News Groupsデータセット上で76.62パーセントの精度に達する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We demonstrate that Principal Component Analysis (PCA), when applied in a structured manner, either to polar-transformed images or segment-wise to token sequences, enables extreme compression of neural models without sacrificing performance. Across three case studies, we show that a one-layer classifier trained on PCA-compressed polar MNIST achieves over 98 percent accuracy using only 840 parameters. A two-layer transformer trained on 70-dimensional PCA-reduced MiniLM embeddings reaches 76.62 percent accuracy on the 20 Newsgroups dataset with just 81000 parameters. A decoder-only transformer generates coherent token sequences from 70-dimensional PCA embeddings while preserving over 97 percent cosine similarity with full MiniLM representations, using less than 17 percent of the parameter count of GPT-2. These results highlight PCA-based input compression as a general and effective strategy for aligning model capacity with information content, enabling lightweight architectures across multiple modalities.
- Abstract(参考訳): 主成分分析(PCA)は、偏光変換された画像やトークンシーケンスのセグメントワイドに、構造化された方法で適用された場合、性能を犠牲にすることなく、ニューラルネットワークの極端な圧縮を可能にすることを実証する。
3つのケーススタディにおいて,PCA圧縮極性MNISTで訓練した1層分類器が840パラメータのみを用いて98%以上の精度を達成できた。
70次元PCA-Reduced MiniLM埋め込みで訓練された2層トランスフォーマーは、たった81000のパラメータを持つ20のNews Groupsデータセット上で76.62パーセントの精度に達する。
デコーダのみ変換器は70次元PCA埋め込みからコヒーレントトークンシーケンスを生成し、GPT-2のパラメータカウントの17%以下を用いて、完全なMiniLM表現と97%以上のコサイン類似性を保っている。
これらの結果は、PCAベースの入力圧縮を、モデル容量を情報コンテンツと整合させる汎用的で効果的な戦略として強調し、複数のモダリティにまたがる軽量アーキテクチャを実現する。
関連論文リスト
- Share Your Attention: Transformer Weight Sharing via Matrix-based Dictionary Learning [6.346469177254699]
本稿ではトランス層間における重み共有の構造化フレームワークを提案する。
CNNにおける辞書学習に着想を得て,トランスフォーマー層間の重み共有を構造化するためのフレームワークを提案する。
提案手法は,アテンション投影行列を共有辞書原子に分解し,アテンションモジュールのパラメータを66.7%削減する。
論文 参考訳(メタデータ) (2025-08-06T16:06:43Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - Krony-PT: GPT2 compressed with Kronecker Products [0.6372911857214884]
我々はKronecker ProductsをベースにしたGPT2 citepradford 2019の圧縮技術であるKrony-PTを紹介する。
具体的には、元のトランス層の層を対象とし、フィードフォワード層を様々な程度に体系的に圧縮する。
論文 参考訳(メタデータ) (2024-12-16T20:44:01Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。
SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文 参考訳(メタデータ) (2024-04-04T15:23:14Z) - Comparing Hyper-optimized Machine Learning Models for Predicting Efficiency Degradation in Organic Solar Cells [38.647921189039934]
本研究は,有機太陽電池 (OSC) の電力変換効率 (PCE) に苦しむ時間的劣化を表現するための機械学習モデルを提案する。
製造プロセスと環境条件の両方に関して最大7変数を含む996項目のデータベースを180日間以上作成しました。
一方、根平均二乗誤差(RMSE)、二乗誤差(SSE)の和、および平均絶対誤差(MAE)>1%の目標値であるPCEは、係数決定(R2)の値に達した。
論文 参考訳(メタデータ) (2024-03-29T22:05:26Z) - Variator: Accelerating Pre-trained Models with Plug-and-Play Compression
Modules [111.98205411431402]
Variatorは、プラグアンドプレイ圧縮プラグインによる計算効率を向上させるパラメータ効率加速法である。
Variatorはパラメータを0.9%追加するだけで計算コストを53%削減でき、性能低下は2%未満である。
論文 参考訳(メタデータ) (2023-10-24T11:00:07Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - Test-Time Adaptation with Principal Component Analysis [1.0323063834827415]
主成分分析を用いたテスト時間適応法(TTAwPCA)を提案する。
与えられた層の出力は、主成分分析(PCA)を使用しており、その特異値のペナル化によってフィルタリングされ、PCA逆変換で再構成される。
CIFAR-10-CとCIFAR-100-Cの実験により,本手法の有効性と限界が示された。
論文 参考訳(メタデータ) (2022-09-13T07:24:40Z) - Compressing Pre-trained Transformers via Low-Bit NxM Sparsity for
Natural Language Understanding [20.75335227098455]
大規模な事前学習型トランスフォーマーネットワークは、多くの自然言語理解タスクにおいて劇的に改善されている。
NM半構造スパーシリティと低精度整数計算の両方をサポートする新しいハードウェアは、モデル提供効率を高めるための有望な解決策である。
本研究では,同時スペーシフィケーションと量子化を行うフレキシブル圧縮フレームワークNxMiFormerを提案する。
論文 参考訳(メタデータ) (2022-06-30T04:33:50Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。