論文の概要: Boosting Parameter Efficiency in LLM-Based Recommendation through Sophisticated Pruning
- arxiv url: http://arxiv.org/abs/2507.07064v1
- Date: Wed, 09 Jul 2025 17:26:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.707003
- Title: Boosting Parameter Efficiency in LLM-Based Recommendation through Sophisticated Pruning
- Title(参考訳): ソフシフィケートプルーニングによるLLM勧告のブーピングパラメータ効率
- Authors: Shanle Zheng, Keqin Bao, Jizhi Zhang, Yang Zhang, Fuli Feng, Xiangnan He,
- Abstract要約: この研究は、レコメンデーション品質を維持しながら効率を向上させるために刈り取りを探求する。
層内および層内プルーニングの両方を統合したよりきめ細かいプルーニング手法を提案する。
提案手法は,非埋め込みパラメータの95%以上を刈り取りながら,元のモデルの性能の88%を平均的に達成する。
- 参考スコア(独自算出の注目度): 44.747749293948864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-based recommender systems have made significant progress; however, the deployment cost associated with the large parameter volume of LLMs still hinders their real-world applications. This work explores parameter pruning to improve parameter efficiency while maintaining recommendation quality, thereby enabling easier deployment. Unlike existing approaches that focus primarily on inter-layer redundancy, we uncover intra-layer redundancy within components such as self-attention and MLP modules. Building on this analysis, we propose a more fine-grained pruning approach that integrates both intra-layer and layer-wise pruning. Specifically, we introduce a three-stage pruning strategy that progressively prunes parameters at different levels and parts of the model, moving from intra-layer to layer-wise pruning, or from width to depth. Each stage also includes a performance restoration step using distillation techniques, helping to strike a balance between performance and parameter efficiency. Empirical results demonstrate the effectiveness of our approach: across three datasets, our models achieve an average of 88% of the original model's performance while pruning more than 95% of the non-embedding parameters. This underscores the potential of our method to significantly reduce resource requirements without greatly compromising recommendation quality. Our code will be available at: https://github.com/zheng-sl/PruneRec
- Abstract(参考訳): LLMベースのレコメンデータシステムは大きな進歩を遂げているが、LLMの膨大なパラメータ量に関連するデプロイメントコストは、まだ実世界のアプリケーションを妨げる。
本研究は,パラメータのプルーニングによるパラメータの効率向上と,推奨品質の維持,デプロイメントの容易化を目的としている。
主に層間冗長性に焦点を当てた既存のアプローチとは異なり、自己アテンションやMLPモジュールなどのコンポーネント内の層内冗長性を明らかにする。
この分析に基づいて, 層内および層内プルーニングの両方を統合する, よりきめ細かいプルーニング手法を提案する。
具体的には,層内プルーニングから層内プルーニング,幅から深さまで,モデルの異なるレベルと部分でパラメータを段階的にプルーニングする3段階プルーニング戦略を導入する。
それぞれのステージには蒸留技術を使用した性能回復ステップが含まれており、性能とパラメータ効率のバランスを取るのに役立つ。
3つのデータセットを通して、我々のモデルは元のモデルの性能の88%を平均で達成し、非埋め込みパラメータの95%以上を刈り取っています。
これにより,提案手法が推奨品質を大幅に損なうことなく,資源要求を大幅に削減できる可能性が示唆された。
私たちのコードは、https://github.com/zheng-sl/PruneRecで利用可能になります。
関連論文リスト
- Cache-Efficient Posterior Sampling for Reinforcement Learning with LLM-Derived Priors Across Discrete and Continuous Domains [2.1797343876622097]
強化学習(RL)の先行する言語モデル(LLM)には大きな利点があるが、かなりの計算コストが伴う。
本稿では,LCMをベースとした後方サンプリングのためのキャッシュ効率向上フレームワークを提案し,性能を向上しつつ,これらのコストを大幅に削減する。
論文 参考訳(メタデータ) (2025-05-12T06:53:24Z) - PointLoRA: Low-Rank Adaptation with Token Selection for Point Cloud Learning [54.99373314906667]
ポイントクラウドのための自己教師付き表現学習は、様々なタスクで事前訓練されたモデルパフォーマンスを改善する効果を実証した。
事前訓練されたモデルは複雑さが増すにつれて、下流のアプリケーションに完全に微調整を施すには、かなりの計算資源とストレージ資源が必要である。
そこで我々は,低ランク適応(LoRA)とマルチスケールトークン選択を併用した簡易かつ効果的なPointLoRAを提案する。
論文 参考訳(メタデータ) (2025-04-22T16:41:21Z) - A Sliding Layer Merging Method for Efficient Depth-Wise Pruning in LLMs [13.000188564679998]
本稿では,再現カーネルHilbert空間内の異なるレイヤの出力の相関関係を解析することにより,大規模言語モデルにおけるPatch-like'の特徴関係を明らかにする。
本研究では, 連続層を上から下へ動的に選択・融合するスライディング層マージ法について, 予め定義された類似度閾値に従って提案する。
提案手法は,ゼロショット推論性能と再学習後の回復品質の両方において,既存のプルーニング技術より優れる。
論文 参考訳(メタデータ) (2025-02-26T14:15:24Z) - Refining Salience-Aware Sparse Fine-Tuning Strategies for Language Models [14.68920095399595]
SPEFT(Sparsity-based PEFT)は、モデルの重み行列にトレーニング可能なスパース適応を導入する。
我々は、ゼロコストNASプロキシにインスパイアされたSPEFTのサリエンス指標を初めて体系的に評価した。
静的マスキング戦略と動的マスキング戦略を比較し、トレーニング前にゼロでないエントリを事前に決定する静的マスキングが、パフォーマンスを犠牲にすることなく効率を向上することを示した。
論文 参考訳(メタデータ) (2024-12-18T04:14:35Z) - OP-LoRA: The Blessing of Dimensionality [93.08208871549557]
低ランクアダプタは、少数のパラメータしか持たない大型モデルの微調整を可能にする。
しばしば最適化の課題を提起するが、収束性は低い。
推論コストを増大させることなく、トレーニングを加速する過剰パラメータ化アプローチを導入する。
視覚言語タスクの改善、特に画像生成の顕著な向上を実現している。
論文 参考訳(メタデータ) (2024-12-13T18:55:19Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。