Fugu-MT 論文翻訳(概要): Dependency-Aware Semi-Structured Sparsity: Declining Roles of Outliers in Pruning GLU-based LLMs

論文の概要: Dependency-Aware Semi-Structured Sparsity: Declining Roles of Outliers in Pruning GLU-based LLMs

arxiv url: http://arxiv.org/abs/2405.01943v2
Date: Thu, 20 Jun 2024 06:57:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-22 04:08:57.219298
Title: Dependency-Aware Semi-Structured Sparsity: Declining Roles of Outliers in Pruning GLU-based LLMs
Title（参考訳）: 依存性を考慮した半構造空間:GLU型LDMにおける外乱器の役割の減少
Authors: Zhiyu Guo, Hidetaka Kamigaito, Taro Wanatnabe,
Abstract要約: 依存性を意識した半構造化スパシティ(DaSS)は,GLUに基づく大規模言語モデル(LLM)のための新しいプルーニング手法である DaSSは非構造化プルーニングの柔軟性と依存性ベースの構造化プルーニングの構造的一貫性のバランスをとる。 The Mistral, Gemma, and LLaMA2 model familyに関する実証的な評価は、DASSの一貫性のある有効性を示している。
参考スコア（独自算出の注目度）: 15.56145303022529
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid growth in the scale of Large Language Models (LLMs) has led to significant computational and memory costs, making model compression techniques such as network pruning increasingly crucial for their efficient deployment. Recent LLMs such as LLaMA2 and Mistral have adopted GLU-based MLP architectures. However, current LLM pruning strategies are primarily based on insights from older LLM architectures, necessitating a reevaluation of these strategies to suit the new architectural characteristics. Contrary to traditional beliefs, we find that outliers play a diminished role in the input projections of GLU-based MLPs. Leveraging this new insight, we propose Dependency-aware Semi-structured Sparsity (DaSS), a novel pruning method for GLU-based LLMs. DaSS balances the flexibility of unstructured pruning and the structural consistency of dependency-based structured pruning by considering both of weight magnitude and corresponding intermediate activation norms in weight pruning metric. Empirical evaluations on the Mistral, Gemma, and LLaMA2 model families demonstrate the consistent effectiveness of DaSS in the prevailing GLU variants.
Abstract（参考訳）: LLM(Large Language Models)のスケールの急速な成長により、計算とメモリのコストが大幅に増加し、ネットワークプルーニングのようなモデル圧縮技術が効率的なデプロイメントにますます重要になっている。 LLaMA2 や Mistral といった最近の LLM は GLU ベースの MLP アーキテクチャを採用している。しかし、現在のLLMプルーニング戦略は、主に古いLLMアーキテクチャからの洞察に基づいており、新しいアーキテクチャ特性に適合するためにこれらの戦略を再評価する必要がある。従来の信念とは対照的に, GLU ベースの MLP の入力射影において, アウターリエが弱い役割を担っていることが分かる。新たな知見を生かして, GLU を用いた LLM の新たな刈り出し法である Dependency-Aware Semi-structured Sparsity (DaSS) を提案する。 DaSSは、ウェイトプルーニング計量におけるウェイトサイズと対応する中間活性化基準の両方を考慮することにより、非構造的プルーニングの柔軟性と依存性に基づく構造化プルーニングの構造的一貫性のバランスをとる。 The Mistral, Gemma, and LLaMA2 model family に関する実証的な評価は、広く普及しているGLU変種におけるDASSの一貫性のある有効性を示している。

関連論文リスト

NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2025-06-11T06:59:17Z)
SlimLLM: Accurate Structured Pruning for Large Language Models [36.84275777364218]
構造化プルーニングは,大規模言語モデルのパラメータを圧縮する有効な解法である。大規模言語モデルに対するSlimLLMという,効率的かつ高速な構造化プルーニング手法を提案する。
論文参考訳（メタデータ） (2025-05-28T03:01:28Z)
Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文参考訳（メタデータ） (2025-03-31T10:16:03Z)
Unified Enhancement of the Generalization and Robustness of Language Models via Bi-Stage Optimization [2.502393972789905]
本稿では,LMの一般化とロバスト性の両方を均一に向上する二段階最適化フレームワークを提案する。提案手法は,従来の手法と比較して,LMの一般化とロバスト性を大幅に向上させることを示す。
論文参考訳（メタデータ） (2025-03-19T13:50:36Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Are Your LLMs Capable of Stable Reasoning? [38.03049704515947]
G-Pass@$k$は、複数のサンプリング試行においてモデル性能を継続的に評価する新しい評価指標である。私たちはG-Pass@$k$と最先端の大規模言語モデルを使って、その潜在能力と運用上の一貫性に関する包括的な洞察を提供しています。
論文参考訳（メタデータ） (2024-12-17T18:12:47Z)
Selecting Influential Samples for Long Context Alignment via Homologous Models' Guidance and Contextual Awareness Measurement [62.87020831987625]
本稿では,長距離依存関係に富む影響力のある,高品質なサンプルを識別する新しいフレームワークを提案する。我々は、長距離依存を効果的にフレーム化するために、影響力のあるデータとして最も難しいサンプルを選択する。実験により, GATEAUは長距離依存関係に富んだサンプルを効果的に同定し, これらのサンプルに基づいて訓練したモデルにより, より優れた指示追従と長文理解能力を示すことが示された。
論文参考訳（メタデータ） (2024-10-21T04:30:53Z)
DISP-LLM: Dimension-Independent Structural Pruning for Large Language Models [62.98273649512654]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な成功を収めた。これらのモデルに関連するメモリと計算コストの増加は、リソース制限されたデバイスへの展開に重大な課題をもたらす。そこで本研究では,構造解析手法によって課される制約を緩和する新しい手法を提案する。
論文参考訳（メタデータ） (2024-10-15T18:51:18Z)
Graph-based Unsupervised Disentangled Representation Learning via Multimodal Large Language Models [42.17166746027585]
複素データ内の因子化属性とその相互関係を学習するための双方向重み付きグラフベースフレームワークを提案する。具体的には、グラフの初期ノードとして要素を抽出する$beta$-VAEベースのモジュールを提案する。これらの相補的加群を統合することで、我々は細粒度、実用性、教師なしの絡み合いをうまく達成できる。
論文参考訳（メタデータ） (2024-07-26T15:32:21Z)
R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。 SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文参考訳（メタデータ） (2024-07-16T12:21:29Z)
CMamba: Channel Correlation Enhanced State Space Models for Multivariate Time Series Forecasting [18.50360049235537]
ステートスペースモデルであるMambaは、堅牢なシーケンスと機能ミキシング機能を備えている。チャネル間の依存関係のキャプチャは、時系列予測のパフォーマンス向上に不可欠である。時系列予測に適した改良されたマンバ変種を導入する。
論文参考訳（メタデータ） (2024-06-08T01:32:44Z)
Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。 Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文参考訳（メタデータ） (2024-04-15T21:02:48Z)
RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文参考訳（メタデータ） (2024-03-19T07:25:02Z)
Toward Adaptive Large Language Models Structured Pruning via Hybrid-grained Weight Importance Assessment [58.030196381554745]
大規模言語モデル (LLM) の刈り取りにおける重み付け重要度の評価を, 微粒化と粗粒化にマージする手法であるHybrid-fine Weight Importance Assessment (HyWIA) を導入する。 LLaMA-V1/V2, Vicuna, Baichuan, Bloomの様々なベンチマークによる大規模な実験により, 刈り込みLDMにおけるHyWIAの有効性が示された。
論文参考訳（メタデータ） (2024-03-16T04:12:50Z)
Quantized Embedding Vectors for Controllable Diffusion Language Models [1.3287140837287783]
Quantized Embedding Controllable Diffusion Language Modelは、言語モデルの制御性、移植性、推論速度を改善する。 QE-CDLMは、最近成功した制御可能なDLMの上に構築され、量子化によってタスク固有の埋め込み空間をモデル化する。
論文参考訳（メタデータ） (2024-02-15T17:02:48Z)
Fluctuation-based Adaptive Structured Pruning for Large Language Models [44.217363567065]
FLAP(FLuctuation-based Adaptive Structured Pruning)は、大規模言語モデルのためのトレーニング不要な構造化プルーニングフレームワークである。ストレージを効果的に削減し、推論速度を向上することで、ハードウェアに優しい。
論文参考訳（メタデータ） (2023-12-19T09:23:48Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。