Fugu-MT 論文翻訳(概要): DISP-LLM: Dimension-Independent Structural Pruning for Large Language Models

論文の概要: DISP-LLM: Dimension-Independent Structural Pruning for Large Language Models

arxiv url: http://arxiv.org/abs/2410.11988v2
Date: Mon, 04 Nov 2024 02:28:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.005613
Title: DISP-LLM: Dimension-Independent Structural Pruning for Large Language Models
Title（参考訳）: DISP-LLM:大規模言語モデルのための次元非依存構造解析
Authors: Shangqian Gao, Chi-Heng Lin, Ting Hua, Tang Zheng, Yilin Shen, Hongxia Jin, Yen-Chang Hsu,
Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な成功を収めた。これらのモデルに関連するメモリと計算コストの増加は、リソース制限されたデバイスへの展開に重大な課題をもたらす。そこで本研究では,構造解析手法によって課される制約を緩和する新しい手法を提案する。
参考スコア（独自算出の注目度）: 62.98273649512654
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLMs) have achieved remarkable success in various natural language processing tasks, including language modeling, understanding, and generation. However, the increased memory and computational costs associated with these models pose significant challenges for deployment on resource-limited devices. Structural pruning has emerged as a promising solution to reduce the costs of LLMs without requiring post-processing steps. Prior structural pruning methods either follow the dependence of structures at the cost of limiting flexibility, or introduce non-trivial additional parameters by incorporating different projection matrices. In this work, we propose a novel approach that relaxes the constraint imposed by regular structural pruning methods and eliminates the structural dependence along the embedding dimension. Our dimension-independent structural pruning method offers several benefits. Firstly, our method enables different blocks to utilize different subsets of the feature maps. Secondly, by removing structural dependence, we facilitate each block to possess varying widths along its input and output dimensions, thereby significantly enhancing the flexibility of structural pruning. We evaluate our method on various LLMs, including OPT, LLaMA, LLaMA-2, Phi-1.5, and Phi-2. Experimental results demonstrate that our approach outperforms other state-of-the-art methods, showing for the first time that structural pruning can achieve an accuracy similar to semi-structural pruning.
Abstract（参考訳）: 大規模言語モデル(LLM)は、言語モデリング、理解、生成を含む様々な自然言語処理タスクにおいて顕著な成功を収めた。しかし、これらのモデルに関連するメモリと計算コストの増加は、リソース制限されたデバイスへの展開に重大な課題をもたらす。構造化プルーニングは、後処理ステップを必要とせずにLCMのコストを削減するための有望なソリューションとして登場した。以前の構造破砕法は、柔軟性を制限するコストで構造の依存に従うか、異なる射影行列を組み込んだ非自明な追加パラメータを導入するかのいずれかである。そこで本研究では, 正規構造解析法によって課される制約を緩和し, 埋め込み次元に沿った構造依存を解消する手法を提案する。我々の次元非依存構造解析法はいくつかの利点をもたらす。まず,提案手法により,各ブロックが特徴マップの異なる部分集合を利用することができる。第2に、構造的依存を取り除くことにより、各ブロックが入力と出力の寸法に沿って様々な幅を持つようにし、構造的プルーニングの柔軟性を著しく向上させる。我々は,OPT,LLaMA,LLaMA-2,Phi-1.5,Phi-2を含む各種LLMについて検討を行った。実験により,本手法は他の最先端手法よりも優れた性能を示し,構造的刈り込みが半構造的刈り込みと同様の精度を達成できることが初めて示された。

関連論文リスト

Elucidating the Design Space of Multimodal Protein Language Models [69.3650883370033]
マルチモーダルタンパク質言語モデル(PLM)は、シーケンスとトークンに基づく構造情報を統合する。本稿では,マルチモーダルPLMの設計空間を体系的に解明し,その限界を克服する。我々の進歩はよりきめ細かな監督にアプローチし、トークンベースのマルチモーダルPLMが堅牢な構造モデリングを実現することを実証する。
論文参考訳（メタデータ） (2025-04-15T17:59:43Z)
Generalized Tensor-based Parameter-Efficient Fine-Tuning via Lie Group Transformations [50.010924231754856]
さまざまな下流タスクに事前訓練された基礎モデルを適用することは、人工知能のコアプラクティスである。これを解決するために、LoRAのようなパラメータ効率細調整(PEFT)手法が登場し、研究の焦点となっている。本稿では,行列型PEFT法を高次元パラメータ空間に拡張する一般化法を提案する。
論文参考訳（メタデータ） (2025-04-01T14:36:45Z)
Sample-aware Adaptive Structured Pruning for Large Language Models [14.605017410864583]
本研究では,大規模言語モデル(LLM)のためのサンプル対応型構造化プルーニングフレームワークであるAdaPrunerを紹介する。特に、AdaPrunerは構造化プルーニング解空間を構築して、LLMから冗長パラメータを効果的に除去する。 20%のプルーニング比で、AdaPrunerでプルーニングされたモデルは、未プルーニングモデルのパフォーマンスの97%を維持している。
論文参考訳（メタデータ） (2025-03-08T12:00:21Z)
ToMoE: Converting Dense Large Language Models to Mixture-of-Experts through Dynamic Structural Pruning [24.8038863056542]
大規模言語モデル(LLM)は、幅広い複雑なタスクに対処する際、顕著な能力を示した。その膨大な計算とメモリコストは、これらのモデルをリソース制約されたデバイスにデプロイする際の大きな課題を提起する。本研究では,高密度モデルに一定数のアクティブパラメータを保持するために,異なる動的プルーニング手法を提案する。
論文参考訳（メタデータ） (2025-01-25T20:01:42Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Greedy Output Approximation: Towards Efficient Structured Pruning for LLMs Without Retraining [16.026565606764954]
我々は Transformer-based large language model (LLMs) のプルーニングプロセスを単純化する。出力近似の最適化から導いた2つの推論対応プルーニング基準を提案する。また,モデル再トレーニングを伴わずにプルーニングエラーを軽減するための2段階再構成手法も導入した。
論文参考訳（メタデータ） (2024-07-26T23:53:59Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
Dependency-Aware Semi-Structured Sparsity of GLU Variants in Large Language Models [15.56145303022529]
大規模言語モデルに対する依存性を意識した半構造化スパシティ(DaSS)を提案する。 DaSSは構造依存をマグニチュードベースのプルーニングに組み込む。 LLaMA2, Mistral, Gemmaモデルファミリーの実証評価では、DaSSはSparseGPTとWandaの両方でハードウェアフレンドリーなN:Mスペーサティパターンを実現している。
論文参考訳（メタデータ） (2024-05-03T09:13:13Z)
Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文参考訳（メタデータ） (2024-02-26T05:51:47Z)
Fluctuation-based Adaptive Structured Pruning for Large Language Models [44.217363567065]
FLAP(FLuctuation-based Adaptive Structured Pruning)は、大規模言語モデルのためのトレーニング不要な構造化プルーニングフレームワークである。ストレージを効果的に削減し、推論速度を向上することで、ハードウェアに優しい。
論文参考訳（メタデータ） (2023-12-19T09:23:48Z)
Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文参考訳（メタデータ） (2023-10-10T15:13:30Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文参考訳（メタデータ） (2022-10-26T13:27:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。