論文の概要: Projected Compression: Trainable Projection for Efficient Transformer Compression
- arxiv url: http://arxiv.org/abs/2506.22255v1
- Date: Fri, 27 Jun 2025 14:24:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.232698
- Title: Projected Compression: Trainable Projection for Efficient Transformer Compression
- Title(参考訳): 予測圧縮:効率的な変圧器圧縮のための訓練可能な投影
- Authors: Maciej Stefaniak, Michał Krutul, Jan Małaśnicki, Maciej Pióro, Jakub Krajewski, Sebastian Jaszczur, Marek Cygan, Kamil Adamczewski, Jan Ludziejewski,
- Abstract要約: 大規模言語モデルは、パフォーマンスを向上させるために、着実に拡大している。
射影圧縮は、射影モジュールを利用することでモデル重量を減らす新しいモデル圧縮技術である。
実験結果から, プロジェクテッド圧縮は, 高品質モデルにおいて, 同等のハードプルーニングおよびリトレーニング手法より優れることがわかった。
- 参考スコア(独自算出の注目度): 2.9812951075697325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have steadily increased in size to achieve improved performance; however, this growth has also led to greater inference time and computational demands. Consequently, there is rising interest in model size reduction methods. To address this issue, we propose Projected Compression, a novel model compression technique, that reduces model weights by utilizing projection modules. Specifically, we first train additional trainable projections weights and preserve access to all the original model parameters. Subsequently, these projections are merged into a lower-dimensional product matrix, resulting in a reduced-size standard Transformer-based model. Unlike alternative approaches that require additional computational overhead, our method matches the base model's per-token computation step in FLOPs. Experimental results show that Projected Compression outperforms the comparable hard pruning and retraining approach on higher quality models. Moreover, the performance margin scales well with the number of tokens.
- Abstract(参考訳): 大規模言語モデルは性能向上のために着実に増加してきたが、この成長は推論時間と計算要求の増大にも繋がった。
その結果,モデルサイズ削減手法への関心が高まっている。
そこで本研究では,プロジェクションモジュールを用いてモデル重みを小さくする新しいモデル圧縮手法であるProjected Compressionを提案する。
具体的には、トレーニング可能なプロジェクションを追加訓練し、元のモデルパラメータをすべて保持する。
その後、これらの射影は低次元の積行列にマージされ、その結果、小型の標準トランスフォーマーモデルとなる。
新たな計算オーバーヘッドを必要とする代替手法とは異なり,本手法はFLOPにおけるベースモデル毎の計算ステップと一致する。
実験結果から, プロジェクテッド圧縮は, 高品質モデルにおいて, 同等のハードプルーニングおよびリトレーニング手法より優れることがわかった。
さらに、パフォーマンスマージンはトークンの数とよく一致します。
関連論文リスト
- TuneComp: Joint Fine-tuning and Compression for Large Foundation Models [50.33925662486034]
シーケンシャルな微調整と圧縮はパフォーマンスを犠牲にし、中間ステップとして必要以上のモデルを作成する。
そこで本研究では, 圧搾された低ランク構造に段階的に蒸留することにより, 連続的に微調整を行い, 圧縮する手法を提案する。
実験により、関節の微調整と圧縮は他の逐次圧縮法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-05-27T23:49:35Z) - Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。
ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - Merging Feed-Forward Sublayers for Compressed Transformers [16.746335565636976]
モデル内の類似パラメータ群をマージすることで,モデル圧縮に対する新しいアプローチを提案する。
具体的には、Transformerモデルでフィードフォワードサブレイヤを分離し、アライメントし、マージする。
モデルフィードフォワードサブレイヤの3分の1以上を組み合わせながら、元のモデルに匹敵する性能を示す。
論文 参考訳(メタデータ) (2025-01-10T17:25:11Z) - Singular Value Scaling: Efficient Generative Model Compression via Pruned Weights Refinement [9.454314879815337]
生成モデルは、しばしば支配的な特異ベクトルを示し、微調整効率を阻害し、最適以下の性能をもたらす。
SVS(Singular Value Scaling, Singular Value Scaling, SVS)は, 両モデルタイプに適用可能な, プレナードウェイトを精製する多用途技術である。
SVSは、追加のトレーニングコストなしでモデルタイプ間の圧縮性能を改善する。
論文 参考訳(メタデータ) (2024-12-23T08:40:08Z) - Diffusion Product Quantization [18.32568431229839]
極端圧縮条件下での拡散モデルの量子化について検討し、性能を維持しながらモデルサイズを小さくする。
我々は、ImageNet上のDiTモデルに圧縮法を適用し、他の量子化手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-11-19T07:47:37Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Language model compression with weighted low-rank factorization [73.61874728240568]
本稿では,モデル予測に影響を及ぼすパラメータの重要性を評価するために,フィッシャー情報を紹介する。
結果のタスク精度は、元のモデルの性能にかなり近いことがわかった。
提案手法は,タスク固有のモデルを直接圧縮し,他のコンパクトモデル戦略よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-06-30T21:57:07Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。