論文の概要: Symmetric Pruning of Large Language Models
- arxiv url: http://arxiv.org/abs/2501.18980v1
- Date: Fri, 31 Jan 2025 09:23:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:03:08.384831
- Title: Symmetric Pruning of Large Language Models
- Title(参考訳): 大規模言語モデルの対称的プルーニング
- Authors: Kai Yi, Peter Richtárik,
- Abstract要約: Wanda や RIA のような訓練後プルニングの手法は、シンプルだが効果的な設計で知られている。
本稿では, プルーニングの標準最小化目標を再定義する新たな理論的知見を紹介する。
本稿では,入力アクティベーションと重みの両面を考慮した補完戦略を提案する。
- 参考スコア(独自算出の注目度): 61.309982086292756
- License:
- Abstract: Popular post-training pruning methods such as Wanda and RIA are known for their simple, yet effective, designs that have shown exceptional empirical performance. Wanda optimizes performance through calibrated activations during pruning, while RIA emphasizes the relative, rather than absolute, importance of weight elements. Despite their practical success, a thorough theoretical foundation explaining these outcomes has been lacking. This paper introduces new theoretical insights that redefine the standard minimization objective for pruning, offering a deeper understanding of the factors contributing to their success. Our study extends beyond these insights by proposing complementary strategies that consider both input activations and weight significance. We validate these approaches through rigorous experiments, demonstrating substantial enhancements over existing methods. Furthermore, we introduce a novel training-free fine-tuning approach $R^2$-DSnoT that incorporates relative weight importance and a regularized decision boundary within a dynamic pruning-and-growing framework, significantly outperforming strong baselines and establishing a new state of the art.
- Abstract(参考訳): Wanda や RIA のようなポストトレーニング後のプルーニング手法は、単純なが効果的な設計で知られており、例外的な経験的な性能を示している。
Wandaはプルーニング中の調整されたアクティベーションによってパフォーマンスを最適化する一方、RIAは絶対的ではなく、重み要素の重要性を強調している。
実際の成功にもかかわらず、これらの成果を説明する完全な理論的基礎は欠落している。
本稿では, 刈り取りの標準最小化目標を再定義する新たな理論的知見を導入し, その成功に寄与する要因についてより深く理解する。
我々の研究は、入力の活性化と重みの重み付けの両方を考慮に入れた相補的な戦略を提案し、これらの知見を超えて拡張する。
これらの手法を厳密な実験により検証し,既存手法に対する実質的な拡張を実証する。
さらに, 動的プランニング・アンド・成長フレームワークにおいて, 相対重み重みと正規化決定境界を組み込んだ, トレーニング不要なファインチューニングアプローチである$R^2$-DSnoTを導入し, 強靭なベースラインを著しく上回り, 新たな最先端技術を確立する。
関連論文リスト
- First Activations Matter: Training-Free Methods for Dynamic Activation in Large Language Models [25.15698344467722]
本稿では,シークエンス情報を利用したトレーニングフリーなThresholdベースの動的アクティベーション手法を提案する。
本研究は,歴史関連アクティベーションの不確かさと意味不明アクティベーション慣性という2つの重要な特徴を理論的に分析する。
論文 参考訳(メタデータ) (2024-08-21T07:38:51Z) - See Further for Parameter Efficient Fine-tuning by Standing on the Shoulders of Decomposition [56.87609859444084]
パラメータ効率の細かいチューニング(PEFT)は、パラメータの選択したサブセットを最適化し、残りを固定し、計算とストレージのオーバーヘッドを大幅に削減することに焦点を当てている。
分解の観点からそれらを分離することで、すべてのアプローチを統一する第一歩を踏み出します。
本稿では,PEFT技術の性能向上を目的とした,単純かつ効果的なフレームワークとともに,新しい2つのPEFT手法を提案する。
論文 参考訳(メタデータ) (2024-07-07T15:44:42Z) - Bias Mitigation in Fine-tuning Pre-trained Models for Enhanced Fairness
and Efficiency [26.86557244460215]
新しいタスクにおけるバイアスを軽減するために特別に設計された、効率的で堅牢な微調整フレームワークを導入します。
我々の経験的分析は、異なる人口集団の予測に影響を与える事前学習モデルのパラメータが異なることを示している。
我々は、人口集団間でフィッシャー情報を用いて決定された、これらの影響力のある重みの重要性を中和する伝達学習戦略を採用している。
論文 参考訳(メタデータ) (2024-03-01T16:01:28Z) - Uplift vs. predictive modeling: a theoretical analysis [1.2412255325209152]
本稿では,理論的基礎から始まり,昇降・予測的手法の性能に影響を及ぼすパラメータを明らかにすることから,その主題を包括的に扱うことを提案する。
本論文は,二項帰結事例と二項作用に着目し,古典的予測手法と比較し,昇降モデリングの理論的解析を行った。
論文 参考訳(メタデータ) (2023-09-21T12:59:17Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - Learn to Accumulate Evidence from All Training Samples: Theory and
Practice [7.257751371276488]
Evidential Deep Learningは、決定論的ニューラルネットワークの不確実性を認識するための、原則的かつ計算的に効率的な方法を提供する。
既存の明らかなアクティベーション関数はゼロエビデンス領域を生成するため、モデルがそのような領域に落ちてくるトレーニングサンプルから学ぶことができない。
我々の理論的基盤に基づく顕在的活性化関数のより深い分析は、新しい正則化器の設計を刺激する。
論文 参考訳(メタデータ) (2023-06-19T18:27:12Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - ReMP: Rectified Metric Propagation for Few-Shot Learning [67.96021109377809]
修正されたメートル法空間は、トレーニングからテストまでのメートル法一貫性を維持するために学習される。
多くの分析結果から、目的の単純な修正がかなりの性能向上をもたらすことが示唆された。
提案したReMPは効率的で効率的であり、様々な標準的な数発の学習データセットで芸術の状態を上回ります。
論文 参考訳(メタデータ) (2020-12-02T00:07:53Z) - Reintroducing Straight-Through Estimators as Principled Methods for
Stochastic Binary Networks [85.94999581306827]
2重みとアクティベーションを持つニューラルネットワークのトレーニングは、勾配の欠如と離散重みよりも最適化が難しいため、難しい問題である。
多くの実験結果が経験的ストレートスルー(ST)アプローチで達成されている。
同時に、ST法はベルヌーイ重みを持つバイナリネットワーク(SBN)モデルにおける推定子として真に導出することができる。
論文 参考訳(メタデータ) (2020-06-11T23:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。