論文の概要: RCPU: Rotation-Constrained Error Compensation for Structured Pruning of a Large Language Model
- arxiv url: http://arxiv.org/abs/2510.07782v1
- Date: Thu, 09 Oct 2025 04:54:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.868907
- Title: RCPU: Rotation-Constrained Error Compensation for Structured Pruning of a Large Language Model
- Title(参考訳): RCPU:大規模言語モデルの構造化プルーニングにおける回転制限誤差補償
- Authors: Shuichiro Haruta, Kazunori Matsumoto, Zhi Li, Yanan Wang, Mori Kurokawa,
- Abstract要約: 大規模言語モデル(LLM)の構造化プルーニングによる誤りに対処する回転制限補償法を提案する。
LLMは大量のデータセットに基づいて訓練され、表現空間に豊富なセマンティック知識を蓄積する。
実験では,提案手法をLLaMA-7Bに適用し,WikiText-2および複数の言語理解ベンチマーク上で評価する。
- 参考スコア(独自算出の注目度): 4.7618979083425215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a rotation-constrained compensation method to address the errors introduced by structured pruning of large language models (LLMs). LLMs are trained on massive datasets and accumulate rich semantic knowledge in their representation space. In contrast, pruning is typically carried out with only a small amount of calibration data, which makes output mismatches unavoidable. Although direct least-squares fitting can reduce such errors, it tends to overfit to the limited calibration set, destructively modifying pretrained weights. To overcome this difficulty, we update the pruned parameters under a rotation constraint. This constrained update preserves the geometry of output representations (i.e., norms and inner products) and simultaneously re-aligns the pruned subspace with the original outputs. Furthermore, in rotation-constrained compensation, removing components that strongly contribute to the principal directions of the output makes error recovery difficult. Since input dimensions with large variance strongly affect these principal directions, we design a variance-aware importance score that ensures such dimensions are preferentially kept in the pruned model. By combining this scoring rule with rotation-constrained updates, the proposed method effectively compensates errors while retaining the components likely to be more important in a geometry-preserving manner. In the experiments, we apply the proposed method to LLaMA-7B and evaluate it on WikiText-2 and multiple language understanding benchmarks. The results demonstrate consistently better perplexity and task accuracy compared with existing baselines.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) の構造化プルーニングによる誤りに対処する回転制限補償法を提案する。
LLMは大量のデータセットに基づいて訓練され、表現空間に豊富なセマンティック知識を蓄積する。
対照的に、プルーニングは通常、少量のキャリブレーションデータだけで行われ、出力ミスマッチを回避できる。
直列の最小二乗のフィッティングはそのような誤差を減らすことができるが、制限されたキャリブレーションセットに過度に適合し、事前訓練された重量を破壊的に修正する傾向がある。
この難しさを克服するため、回転制約の下で刈り取られたパラメータを更新する。
この制限された更新は出力表現の幾何(ノルムと内部積)を保存し、同時にプルーニングされた部分空間を元の出力と並べ替える。
さらに、回転制限補償では、出力の主方向に強く寄与する成分を除去することがエラー回復を難しくする。
差分が大きい入力次元はこれらの主方向に強く影響するため、これらの次元がプルーニングモデルに優先的に保持されることを保証する分散認識重要度スコアを設計する。
このスコアリングルールと回転制限された更新を組み合わせることで,提案手法は誤差を効果的に補償すると同時に,幾何保存法においてより重要と思われるコンポーネントを維持できる。
実験では,提案手法をLLaMA-7Bに適用し,WikiText-2および複数言語理解ベンチマークで評価した。
その結果,既存のベースラインと比較して,難易度とタスク精度が一貫して向上した。
関連論文リスト
- Olica: Efficient Structured Pruning of Large Language Models without Retraining [0.1534667887016089]
既存のLarge Language Models (LLMs) の構造化プルーニング手法では、破損した相関を再構築するために、再トレーニングに相当な計算資源とデータ資源が必要である。
直交分解(Orthogonal decomposition)と線形分解(Olica)と呼ばれるLCMのプルーニングフレームワークを提案する。
提案されているOllicaは、データ使用量、GPUメモリ、実行時間の点で効率的であり、複数のベンチマークで優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-06-10T04:19:38Z) - FLAT-LLM: Fine-grained Low-rank Activation Space Transformation for Large Language Model Compression [15.784158079414235]
FLAT-LLMは、アクティベーション空間の微細な低ランク変換に基づく、トレーニング不要な構造圧縮手法である。
回復微調整なしで効率よく効果的な重量圧縮を実現し、数分でキャリブレーションを完了できる。
論文 参考訳(メタデータ) (2025-05-29T19:42:35Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Rethinking Pruning Large Language Models: Benefits and Pitfalls of Reconstruction Error Minimization [18.24882084542254]
本稿では,この誤差を90%以上削減する再構成手法を提案する。
キャリブレーションデータを自己生成する戦略は、再構築と一般化のトレードオフを軽減することができる。
論文 参考訳(メタデータ) (2024-06-21T05:13:34Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Revisiting Rotation Averaging: Uncertainties and Robust Losses [51.64986160468128]
現在の手法の主な問題は、推定エピポーラを通して入力データと弱い結合しか持たない最小コスト関数である。
本稿では,点対応から回転平均化への不確実性を直接伝播させることにより,基礎となる雑音分布をモデル化することを提案する。
論文 参考訳(メタデータ) (2023-03-09T11:51:20Z) - Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese
Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。
ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。
標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文 参考訳(メタデータ) (2021-06-03T05:56:57Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。