論文の概要: OSSCAR: One-Shot Structured Pruning in Vision and Language Models with Combinatorial Optimization
- arxiv url: http://arxiv.org/abs/2403.12983v1
- Date: Sat, 2 Mar 2024 19:38:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 07:27:10.254790
- Title: OSSCAR: One-Shot Structured Pruning in Vision and Language Models with Combinatorial Optimization
- Title(参考訳): OSSCAR:コンビネーション最適化による視覚と言語モデルにおけるワンショット構造化プルーニング
- Authors: Xiang Meng, Shibal Ibrahim, Kayhan Behdin, Hussein Hazimeh, Natalia Ponomareva, Rahul Mazumder,
- Abstract要約: 本研究では, プレニング後のモデル再訓練を必要としないワンショット(ポストトレーニング)設定における構造化プルーニングに着目した。
本稿では,階層的な再構築目標と注意深い修正に基づく,この問題に対する新たな最適化フレームワークを提案する。
我々のフレームワークは時間とメモリ効率が高く、最先端のワンショット方式で大幅に改善されている。
- 参考スコア(独自算出の注目度): 19.560685781672504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structured pruning is a promising approach for reducing the inference costs of large vision and language models. By removing carefully chosen structures, e.g., neurons or attention heads, the improvements from this approach can be realized on standard deep learning hardware. In this work, we focus on structured pruning in the one-shot (post-training) setting, which does not require model retraining after pruning. We propose a novel combinatorial optimization framework for this problem, based on a layer-wise reconstruction objective and a careful reformulation that allows for scalable optimization. Moreover, we design a new local combinatorial optimization algorithm, which exploits low-rank updates for efficient local search. Our framework is time and memory-efficient and considerably improves upon state-of-the-art one-shot methods on vision models (e.g., ResNet50, MobileNet) and language models (e.g., OPT-1.3B -- OPT-30B). For language models, e.g., OPT-2.7B, OSSCAR can lead to $125\times$ lower test perplexity on WikiText with $2\times$ inference time speedup in comparison to the state-of-the-art ZipLM approach. Our framework is also $6\times$ -- $8\times$ faster. Notably, our work considers models with tens of billions of parameters, which is up to $100\times$ larger than what has been previously considered in the structured pruning literature.
- Abstract(参考訳): 構造化プルーニングは、大きなビジョンと言語モデルの推論コストを削減するための有望なアプローチである。
ニューロンやアテンションヘッドなどの慎重に選択された構造を取り除くことで、このアプローチの改善を標準的なディープラーニングハードウェア上で実現することができる。
本研究では, プレニング後のモデル再訓練を必要としないワンショット(ポストトレーニング)設定における構造化プルーニングに着目した。
本稿では,階層的な再構築目標と,スケーラブルな最適化を実現するための注意深い再構成に基づく,この問題に対する新たな組合せ最適化フレームワークを提案する。
さらに,効率的な局所探索のために,低ランク更新を利用する新しい局所組合せ最適化アルゴリズムを設計する。
我々のフレームワークは時間とメモリ効率が高く、ビジョンモデル(ResNet50、MobileNetなど)や言語モデル(OPT-1.3B -- OPT-30Bなど)の最先端のワンショットメソッドで大幅に改善されている。
言語モデル、例えば OPT-2.7B では、OSSCAR は、最先端の ZipLM アプローチと比較して、 WikiText の テストパープレクシリティが $125\times$$$2\times$ inference time speedup となる。
私たちのフレームワークも、$6\times$ -- 8\times$-----------------------------------------------------------------
特に、我々の研究は、数千億のパラメータを持つモデルについて検討している。
関連論文リスト
- A Convex-optimization-based Layer-wise Post-training Pruner for Large Language Models [24.185245582500876]
本稿では,凸最適化モデルとアルゴリズムに基づく最初のポストトレーニングプルーナであるFISTAPrunerを紹介する。
FISTAPrunerは層内累積誤差補正機構を搭載し、並列プルーニングをサポートする。
OPT, LLaMA, LLaMA-2, LLaMA-3 などのモデルにおける FISTAPruner の評価を行った。
論文 参考訳(メタデータ) (2024-08-07T12:33:46Z) - Optimizing Large Model Training through Overlapped Activation Recomputation [24.461674158317578]
既存の再計算アプローチでは、実世界のモデルをトレーニングする際に最大40%のオーバーヘッドが発生する可能性がある。
これは、クリティカルトレーニングパスで要求に応じて実行されるためです。
我々は、トレーニングパイプラインで発生する通信と再計算を重複させることでオーバーヘッドを削減するために、新しい再計算フレームワーク、Lynxを設計する。
論文 参考訳(メタデータ) (2024-06-13T02:31:36Z) - Rethinking Optimization and Architecture for Tiny Language Models [39.892066839422796]
モバイルデバイスにおける言語モデルの適用は、計算とメモリコストに大きな課題に直面している。
本研究では,1Bパラメータを持つ小さな言語モデルに基づいて,各成分の効果を分析するための実験的な研究を慎重に設計する。
いくつかの設計公式は、特に小さな言語モデルに有効であることが実証的に証明されている。
論文 参考訳(メタデータ) (2024-02-05T07:59:38Z) - PanGu-$\pi$: Enhancing Language Model Architectures via Nonlinearity
Compensation [97.78045712375047]
大規模言語モデル(LLM)のための新しい効率的なモデルアーキテクチャを提案する。
そこで,PanGu-$pi$-7Bは,約10%の推論速度を持つベンチマークに匹敵する性能が得られることを示す。
さらに,PanGu-$pi$-7Bを金融法と法律の高価値領域に導入し,実践的応用のためにYunShanというLLMを開発した。
論文 参考訳(メタデータ) (2023-12-27T11:49:24Z) - Greening Large Language Models of Code [13.840108405182407]
Avatarは、コードの大規模な言語モデルからデプロイ可能なモデルを構築する、新しいアプローチである。
アバターの鍵となる考え方は、多目的構成チューニング問題として言語モデルの最適化を定式化することである。
私たちはAvatarを使って、小型の3MBの最適化モデルを作成しました。
論文 参考訳(メタデータ) (2023-09-08T02:20:44Z) - On Optimal Caching and Model Multiplexing for Large Model Inference [66.50550915522551]
大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。
キャッシュを用いて以前のクエリを格納し、モデルの多重化を学習し、クエリ処理のためのモデルの集合から選択する。
論文 参考訳(メタデータ) (2023-06-03T05:01:51Z) - Pruning-as-Search: Efficient Neural Architecture Search via Channel
Pruning and Structural Reparameterization [50.50023451369742]
プルーニング・アズ・サーチ(Pruning-as-Search、PaS)は、必要なサブネットワークを自動的に効率的に検索するエンドツーエンドのプルーニング手法である。
提案したアーキテクチャは,ImageNet-1000分類タスクにおいて,1.0%$ Top-1精度で先行技術より優れていた。
論文 参考訳(メタデータ) (2022-06-02T17:58:54Z) - Re-parameterizing Your Optimizers rather than Architectures [119.08740698936633]
本稿では,モデル固有の事前知識を構造学に取り入れ,汎用モデル(簡易モデル)の学習に使用する新しいパラダイムを提案する。
実装として,モデル固有のハイパーパラメータの集合に従って勾配を変更することによって,事前知識を付加する手法を提案する。
Reprでトレーニングされた単純なモデルに対しては、VGGスタイルのプレーンモデルに注目し、ReprでトレーニングされたそのようなシンプルなモデルがRep-VGGと呼ばれ、最近のよく設計されたモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-05-30T16:55:59Z) - Probing Structured Pruning on Multilingual Pre-trained Models: Settings,
Algorithms, and Efficiency [62.0887259003594]
本研究では,多言語事前学習言語モデルにおける構造化プルーニングの3つの側面について検討する。
9つの下流タスクの実験は、いくつかの反直観的な現象を示している。
モデルを一度トレーニングし、推論時に異なるモデルサイズに適応できるシンプルなアプローチであるDynamic Sparsificationを紹介します。
論文 参考訳(メタデータ) (2022-04-06T06:29:52Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。