論文の概要: Gradient-Free Adaptive Global Pruning for Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2402.17946v1
- Date: Wed, 28 Feb 2024 00:09:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 16:57:50.213202
- Title: Gradient-Free Adaptive Global Pruning for Pre-trained Language Models
- Title(参考訳): 事前学習言語モデルに対するグラディエントフリー適応型グローバルプルーニング
- Authors: Guangji Bai, Yijiang Li, Chen Ling, Kibaek Kim, Liang Zhao
- Abstract要約: アダプティブ・グローバル・プルーニング(Adaptive Global Pruning, AdaGP)は、グローバル・プルーニングプロセスを管理可能で調整可能なサブプロブレムに再定義する新しいフレームワークである。
AdaGPのアプローチは、LLMをモジュラー関数の連鎖として概念化し、問題の分解に補助変数を利用する。
高いスパーシティ・レシエーションにおいて、特に顕著なパフォーマンス向上を示す。
- 参考スコア(独自算出の注目度): 12.935699580605814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The transformative impact of large language models (LLMs) like LLaMA and GPT
on natural language processing is countered by their prohibitive computational
demands. Pruning has emerged as a pivotal compression strategy, introducing
sparsity to enhance both memory and computational efficiency. Yet, traditional
global pruning is impractical for LLMs due to scalability issues, while local
pruning, despite its efficiency, leads to suboptimal solutions. Addressing
these challenges, we propose Adaptive Global Pruning (AdaGP), a novel framework
that redefines the global pruning process into manageable, coordinated
subproblems, allowing for resource-efficient optimization with global
optimality. AdaGP's approach, which conceptualizes LLMs as a chain of modular
functions and leverages auxiliary variables for problem decomposition, not only
facilitates a pragmatic application on LLMs but also demonstrates significant
performance improvements, particularly in high-sparsity regimes where it
surpasses current state-of-the-art methods.
- Abstract(参考訳): LLaMAやGPTのような大規模言語モデル(LLM)が自然言語処理に与える影響は、その禁止的な計算要求に反する。
プルーニングは重要な圧縮戦略として登場し、メモリ効率と計算効率の両方を高めるためにスパーシティを導入した。
しかし、従来のグローバルpruningはスケーラビリティの問題からllmでは実用的でないが、ローカルpruningはその効率性にもかかわらず、サブオプティマイズソリューションにつながる。
これらの課題に対処し、グローバルプルーニングプロセスを管理可能かつ協調的なサブプロブレムに再定義し、グローバル最適化によるリソース効率の高い最適化を可能にする新しいフレームワークであるadaptive global pruning(adagp)を提案する。
AdaGPのアプローチは、LLMをモジュラー関数の連鎖として概念化し、問題分解のための補助変数を活用するもので、LLMの実用的適用を促進するだけでなく、特に最先端の手法を超越した高疎度なシステムにおいて、大幅な性能向上を示す。
関連論文リスト
- Revisiting Zeroth-Order Optimization for Memory-Efficient LLM
Fine-Tuning: A Benchmark [170.47660885570463]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - Entropy-Regularized Token-Level Policy Optimization for Large Language
Models [76.02428537504323]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
その結果,ETPO は CodeLlama-7B モデルで有効な性能向上を実現し,RLHF から受け継いだ変種 PPO ベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Toward Rapid, Optimal, and Feasible Power Dispatch through Generalized
Neural Mapping [0.0]
パワーディスパッチ問題を解決するための学習ベースアプローチとして LOOP-LC 2.0 を提案する。
LOOP-LC 2.0フレームワークの顕著な利点は、ソリューションのほぼ最適性と厳密な実現性を保証する能力である。
本稿では, LOOP-LC 2.0法の有効性を, 学習速度, 計算時間, 最適性, ソリューション実現可能性の観点から示す。
論文 参考訳(メタデータ) (2023-11-08T17:02:53Z) - ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language
Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。
LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。
本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文 参考訳(メタデータ) (2023-10-04T17:34:00Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Dynamic Regularized Sharpness Aware Minimization in Federated Learning: Approaching Global Consistency and Smooth Landscape [59.841889495864386]
フェデレートラーニング(FL)では、グローバルサーバの協調の下で、ローカルクライアントのクラスタがチェアリングされる。
クライアントは自身のオプティマに過度に適合する傾向にあり、グローバルな目標から非常に逸脱する。
tt Family FedSMOOは、グローバルな目的に対する局所的な最適性を保証するために動的正規化器を採用する。
理論解析により, tt Family FedSMOO は, 低境界一般化による高速$mathcalO (1/T)$収束率を達成することが示された。
論文 参考訳(メタデータ) (2023-05-19T10:47:44Z) - Combining Genetic Programming and Particle Swarm Optimization to
Simplify Rugged Landscapes Exploration [7.25130576615102]
元の関数のスムーズな代理モデルを構築するための新しい手法を提案する。
GP-FST-PSOサロゲートモデル(GP-FST-PSO Surrogate Model)と呼ばれる提案アルゴリズムは,グローバルな最適探索と,元のベンチマーク関数の視覚的近似の生成の両方において満足な結果が得られる。
論文 参考訳(メタデータ) (2022-06-07T12:55:04Z) - AGGLIO: Global Optimization for Locally Convex Functions [5.221860952360943]
本稿では,AGG(Accelerated Optimization Generalized LInear-model)をステージワイドでグローバルな手法として提案する。
AGGは、A-バッチSGD更新としてポイントを用いて容易に実装でき、証明可能な収束と収束実験を提供する。
論文 参考訳(メタデータ) (2021-11-06T18:15:56Z) - Efficient Semantic Image Synthesis via Class-Adaptive Normalization [116.63715955932174]
クラス適応正規化(CLADE)は、セマンティッククラスにのみ適応する軽量かつ等価なバリアントである。
セマンティクスレイアウトから計算したクラス内位置マップエンコーディングを導入し,cladeの正規化パラメータを変調する。
提案されたCLADEは異なるSPADEベースのメソッドに一般化し、SPADEと比較して同等の生成品質を達成できる。
論文 参考訳(メタデータ) (2020-12-08T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。