論文の概要: Entropy-Based Block Pruning for Efficient Large Language Models
- arxiv url: http://arxiv.org/abs/2504.03794v1
- Date: Fri, 04 Apr 2025 03:42:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:15:09.021771
- Title: Entropy-Based Block Pruning for Efficient Large Language Models
- Title(参考訳): エントロピーに基づく大規模言語モデルのためのブロックプルーニング
- Authors: Liangwei Yang, Yuhui Xu, Juntao Tan, Doyen Sahoo, Silvio Savarese, Caiming Xiong, Huan Wang, Shelby Heinecke,
- Abstract要約: 性能を維持しつつ効率を向上するエントロピー型プルーニング戦略を提案する。
経験的分析により、隠れ表現のエントロピーは初期ブロックでは減少するが、その後のほとんどのブロックでは徐々に増加することが明らかとなった。
- 参考スコア(独自算出の注目度): 81.18339597023187
- License:
- Abstract: As large language models continue to scale, their growing computational and storage demands pose significant challenges for real-world deployment. In this work, we investigate redundancy within Transformer-based models and propose an entropy-based pruning strategy to enhance efficiency while maintaining performance. Empirical analysis reveals that the entropy of hidden representations decreases in the early blocks but progressively increases across most subsequent blocks. This trend suggests that entropy serves as a more effective measure of information richness within computation blocks. Unlike cosine similarity, which primarily captures geometric relationships, entropy directly quantifies uncertainty and information content, making it a more reliable criterion for pruning. Extensive experiments demonstrate that our entropy-based pruning approach surpasses cosine similarity-based methods in reducing model size while preserving accuracy, offering a promising direction for efficient model deployment.
- Abstract(参考訳): 大規模言語モデルが拡大を続けるにつれ、計算とストレージの需要が増大し、現実のデプロイメントに重大な課題をもたらしている。
本研究では,トランスフォーマーモデルにおける冗長性について検討し,性能を維持しつつ効率を向上するエントロピー型プルーニング戦略を提案する。
経験的分析により、隠れ表現のエントロピーは初期ブロックでは減少するが、その後のほとんどのブロックでは徐々に増加することが明らかとなった。
この傾向はエントロピーが計算ブロック内の情報豊かさのより効果的な尺度であることを示している。
主に幾何学的関係を捉えているコサイン類似性とは異なり、エントロピーは不確実性や情報内容を直接定量化し、より信頼性の高いプルーニング基準となる。
我々のエントロピーベースのプルーニングアプローチは、モデルサイズを削減しつつ精度を保ちながら、コサイン類似性に基づく手法を超越し、効率的なモデル展開のための有望な方向を提供することを示した。
関連論文リスト
- Shrink the longest: improving latent space isotropy with symplicial geometry [0.0]
本稿では, 簡易幾何学に基づく新しい正規化手法を提案し, 潜在表現の等方性を改善する。
本手法は, 微調整時の異方性を大幅に低下させながら, 下流性能の向上につながることを示す。
論文 参考訳(メタデータ) (2025-01-09T18:44:10Z) - An Entropy-Based Test and Development Framework for Uncertainty Modeling in Level-Set Visualizations [2.5449631655313896]
アンサンブルデータに直接エントロピー計算を用いて予測結果を確立する。
非パラメトリックヒストグラムモデルにおけるビンの削減はより効果的であるのに対し、量子モデルにおける多くのビンはデータの正確性に近づいている。
論文 参考訳(メタデータ) (2024-09-13T00:31:16Z) - REMEDI: Corrective Transformations for Improved Neural Entropy Estimation [0.7488108981865708]
我々は微分エントロピーの効率的かつ正確な推定のために$textttREMEDI$を紹介した。
提案手法は,幅広い推定課題にまたがる改善を実証する。
自然に情報理論による教師あり学習モデルに拡張することができる。
論文 参考訳(メタデータ) (2024-02-08T14:47:37Z) - Dynamic Kernel-Based Adaptive Spatial Aggregation for Learned Image
Compression [63.56922682378755]
本稿では,空間アグリゲーション機能の拡張に焦点をあて,動的カーネルベースの変換符号化を提案する。
提案したアダプティブアグリゲーションはカーネルオフセットを生成し、コンテント条件付き範囲の有効な情報をキャプチャして変換を支援する。
実験により,本手法は,最先端の学習手法と比較して,3つのベンチマークにおいて高い速度歪み性能が得られることを示した。
論文 参考訳(メタデータ) (2023-08-17T01:34:51Z) - HEMP: High-order Entropy Minimization for neural network comPression [20.448617917261874]
我々は、量子化された人工ニューラルネットワークのエントロピーを、正規化項として、降下によって最小化されるコスト関数にプラグインできる微分可能な関数として定式化する。
HEMPは, モデル自体の刈り取りや定量化を目的とした他の手法と相乗効果があり, モデルの性能を損なうことなく, ストレージサイズ圧縮性の観点から大きなメリットが得られることを示す。
論文 参考訳(メタデータ) (2021-07-12T10:17:53Z) - Action Redundancy in Reinforcement Learning [54.291331971813364]
遷移エントロピーはモデル依存遷移エントロピーと作用冗長性という2つの用語で記述できることを示す。
その結果,行動冗長性は強化学習の根本的な問題であることが示唆された。
論文 参考訳(メタデータ) (2021-02-22T19:47:26Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - Slice Sampling for General Completely Random Measures [74.24975039689893]
本稿では, 後続推定のためのマルコフ連鎖モンテカルロアルゴリズムについて, 補助スライス変数を用いてトランケーションレベルを適応的に設定する。
提案アルゴリズムの有効性は、いくつかの一般的な非パラメトリックモデルで評価される。
論文 参考訳(メタデータ) (2020-06-24T17:53:53Z) - Learning Context-Based Non-local Entropy Modeling for Image Compression [140.64888994506313]
本稿では,文脈内でのグローバルな類似性を利用して,文脈モデリングのための非局所的操作を提案する。
エントロピーモデルはさらに、結合速度歪み最適化における速度損失として採用されている。
低歪みモデルのトレーニングに変換の幅が不可欠であることを考えると、最終的に変換のU-Netブロックを生成して、管理可能なメモリ消費と時間複雑性で幅を拡大する。
論文 参考訳(メタデータ) (2020-05-10T13:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。