Fugu-MT 論文翻訳(概要): OSSCAR: One-Shot Structured Pruning in Vision and Language Models with Combinatorial Optimization

論文の概要: OSSCAR: One-Shot Structured Pruning in Vision and Language Models with Combinatorial Optimization

arxiv url: http://arxiv.org/abs/2403.12983v1
Date: Sat, 2 Mar 2024 19:38:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-25 07:27:10.254790
Title: OSSCAR: One-Shot Structured Pruning in Vision and Language Models with Combinatorial Optimization
Title（参考訳）: OSSCAR:コンビネーション最適化による視覚と言語モデルにおけるワンショット構造化プルーニング
Authors: Xiang Meng, Shibal Ibrahim, Kayhan Behdin, Hussein Hazimeh, Natalia Ponomareva, Rahul Mazumder,
Abstract要約: 本研究では, プレニング後のモデル再訓練を必要としないワンショット(ポストトレーニング)設定における構造化プルーニングに着目した。本稿では,階層的な再構築目標と注意深い修正に基づく,この問題に対する新たな最適化フレームワークを提案する。我々のフレームワークは時間とメモリ効率が高く、最先端のワンショット方式で大幅に改善されている。
参考スコア（独自算出の注目度）: 19.560685781672504
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Structured pruning is a promising approach for reducing the inference costs of large vision and language models. By removing carefully chosen structures, e.g., neurons or attention heads, the improvements from this approach can be realized on standard deep learning hardware. In this work, we focus on structured pruning in the one-shot (post-training) setting, which does not require model retraining after pruning. We propose a novel combinatorial optimization framework for this problem, based on a layer-wise reconstruction objective and a careful reformulation that allows for scalable optimization. Moreover, we design a new local combinatorial optimization algorithm, which exploits low-rank updates for efficient local search. Our framework is time and memory-efficient and considerably improves upon state-of-the-art one-shot methods on vision models (e.g., ResNet50, MobileNet) and language models (e.g., OPT-1.3B -- OPT-30B). For language models, e.g., OPT-2.7B, OSSCAR can lead to $125\times$ lower test perplexity on WikiText with $2\times$ inference time speedup in comparison to the state-of-the-art ZipLM approach. Our framework is also $6\times$ -- $8\times$ faster. Notably, our work considers models with tens of billions of parameters, which is up to $100\times$ larger than what has been previously considered in the structured pruning literature.
Abstract（参考訳）: 構造化プルーニングは、大きなビジョンと言語モデルの推論コストを削減するための有望なアプローチである。ニューロンやアテンションヘッドなどの慎重に選択された構造を取り除くことで、このアプローチの改善を標準的なディープラーニングハードウェア上で実現することができる。本研究では, プレニング後のモデル再訓練を必要としないワンショット(ポストトレーニング)設定における構造化プルーニングに着目した。本稿では,階層的な再構築目標と,スケーラブルな最適化を実現するための注意深い再構成に基づく,この問題に対する新たな組合せ最適化フレームワークを提案する。さらに,効率的な局所探索のために,低ランク更新を利用する新しい局所組合せ最適化アルゴリズムを設計する。我々のフレームワークは時間とメモリ効率が高く、ビジョンモデル(ResNet50、MobileNetなど)や言語モデル(OPT-1.3B -- OPT-30Bなど)の最先端のワンショットメソッドで大幅に改善されている。言語モデル、例えば OPT-2.7B では、OSSCAR は、最先端の ZipLM アプローチと比較して、 WikiText のテストパープレクシリティが $125\times$$$2\times$ inference time speedup となる。私たちのフレームワークも、$6\times$ -- 8\times$----------------------------------------------------------------- 特に、我々の研究は、数千億のパラメータを持つモデルについて検討している。

関連論文リスト

GPTailor: Large Language Model Pruning Through Layer Cutting and Stitching [41.96482857947199]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。 LLMは通常、相当なモデルサイズを持ち、デプロイメントと推論において大きな課題をもたらします。そこで我々は, モデルモデルから層を戦略的に組み合わせたり, マージしたりすることで, モデルを圧縮するための新しい戦略を開発した。
論文参考訳（メタデータ） (2025-06-25T14:24:59Z)
Pruning General Large Language Models into Customized Expert Models [78.96891010334852]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、その相当なモデルサイズは、しばしばかなりの計算資源を必要とする。そこで本研究では,より小型のエキスパートモデルに大容量の一般モデルを組み込む手法を提案する。各次元の無関係ニューロンを識別し、プルーニングすることにより、$textttCus-Prun$は、ポストトレーニングなしで専門家モデルを作成する。
論文参考訳（メタデータ） (2025-06-03T07:47:30Z)
TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文参考訳（メタデータ） (2025-03-19T17:58:57Z)
EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文参考訳（メタデータ） (2025-03-19T16:07:04Z)
Towards Efficient Automatic Self-Pruning of Large Language Models [55.90119819642064]
トレーニング後の構造化プルーニングは、トレーニングを必要とせずに大規模言語モデルを熟成する有望なソリューションである。この問題を緩和する鍵は、各レイヤのプルーニング率を正確に決定することにある、と我々は主張する。我々は、レイヤワイドプルーニングレートを効率的に検索するLLMのためのエンドツーエンドの自動自動プルーニングフレームワークである$textbfSelf-Prunerを紹介した。
論文参考訳（メタデータ） (2025-02-20T09:59:50Z)
Double Visual Defense: Adversarial Pre-training and Instruction Tuning for Improving Vision-Language Model Robustness [30.934760041900386]
本稿では,対角的視覚摂動に対する視覚言語モデルの堅牢性について検討する。我々は、Webスケールデータを用いて、スクラッチから大規模な対角視言語事前学習を行う。次に、対角的視覚的指導のチューニングを取り入れて防御を強化する。
論文参考訳（メタデータ） (2025-01-16T10:20:48Z)
Zeroth-Order Adaptive Neuron Alignment Based Pruning without Re-Training [3.195234044113248]
ネットワークプルーニングのためのemphtop-upアルゴリズムであるtextscNeuroALを提案する。これは、高密度モデルとスパースバージョンの両方から情報を利用するブロックワイドと行ワイドのスパース性を変更する。パフォーマンスと実行時のトレードオフの観点から、最新の最先端の手法を一貫して上回ります。
論文参考訳（メタデータ） (2024-11-11T15:30:16Z)
A Convex-optimization-based Layer-wise Post-training Pruner for Large Language Models [24.185245582500876]
本稿では,凸最適化モデルとアルゴリズムに基づく最初のポストトレーニングプルーナであるFISTAPrunerを紹介する。 FISTAPrunerは層内累積誤差補正機構を搭載し、並列プルーニングをサポートする。 OPT, LLaMA, LLaMA-2, LLaMA-3 などのモデルにおける FISTAPruner の評価を行った。
論文参考訳（メタデータ） (2024-08-07T12:33:46Z)
Optimizing Large Model Training through Overlapped Activation Recomputation [24.461674158317578]
既存の再計算アプローチでは、実世界のモデルをトレーニングする際に最大40%のオーバーヘッドが発生する可能性がある。これは、クリティカルトレーニングパスで要求に応じて実行されるためです。我々は、トレーニングパイプラインで発生する通信と再計算を重複させることでオーバーヘッドを削減するために、新しい再計算フレームワーク、Lynxを設計する。
論文参考訳（メタデータ） (2024-06-13T02:31:36Z)
Rethinking Optimization and Architecture for Tiny Language Models [39.892066839422796]
モバイルデバイスにおける言語モデルの適用は、計算とメモリコストに大きな課題に直面している。本研究では,1Bパラメータを持つ小さな言語モデルに基づいて,各成分の効果を分析するための実験的な研究を慎重に設計する。いくつかの設計公式は、特に小さな言語モデルに有効であることが実証的に証明されている。
論文参考訳（メタデータ） (2024-02-05T07:59:38Z)
PanGu-$\pi$: Enhancing Language Model Architectures via Nonlinearity Compensation [97.78045712375047]
大規模言語モデル(LLM)のための新しい効率的なモデルアーキテクチャを提案する。そこで,PanGu-$pi$-7Bは,約10%の推論速度を持つベンチマークに匹敵する性能が得られることを示す。さらに,PanGu-$pi$-7Bを金融法と法律の高価値領域に導入し,実践的応用のためにYunShanというLLMを開発した。
論文参考訳（メタデータ） (2023-12-27T11:49:24Z)
Greening Large Language Models of Code [13.840108405182407]
Avatarは、コードの大規模な言語モデルからデプロイ可能なモデルを構築する、新しいアプローチである。アバターの鍵となる考え方は、多目的構成チューニング問題として言語モデルの最適化を定式化することである。私たちはAvatarを使って、小型の3MBの最適化モデルを作成しました。
論文参考訳（メタデータ） (2023-09-08T02:20:44Z)
On Optimal Caching and Model Multiplexing for Large Model Inference [66.50550915522551]
大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。キャッシュを用いて以前のクエリを格納し、モデルの多重化を学習し、クエリ処理のためのモデルの集合から選択する。
論文参考訳（メタデータ） (2023-06-03T05:01:51Z)
Pruning-as-Search: Efficient Neural Architecture Search via Channel Pruning and Structural Reparameterization [50.50023451369742]
プルーニング・アズ・サーチ(Pruning-as-Search、PaS)は、必要なサブネットワークを自動的に効率的に検索するエンドツーエンドのプルーニング手法である。提案したアーキテクチャは,ImageNet-1000分類タスクにおいて,1.0%$ Top-1精度で先行技術より優れていた。
論文参考訳（メタデータ） (2022-06-02T17:58:54Z)
Re-parameterizing Your Optimizers rather than Architectures [119.08740698936633]
本稿では,モデル固有の事前知識を構造学に取り入れ,汎用モデル(簡易モデル)の学習に使用する新しいパラダイムを提案する。実装として,モデル固有のハイパーパラメータの集合に従って勾配を変更することによって,事前知識を付加する手法を提案する。 Reprでトレーニングされた単純なモデルに対しては、VGGスタイルのプレーンモデルに注目し、ReprでトレーニングされたそのようなシンプルなモデルがRep-VGGと呼ばれ、最近のよく設計されたモデルと同等に動作することを示す。
論文参考訳（メタデータ） (2022-05-30T16:55:59Z)
Probing Structured Pruning on Multilingual Pre-trained Models: Settings, Algorithms, and Efficiency [62.0887259003594]
本研究では,多言語事前学習言語モデルにおける構造化プルーニングの3つの側面について検討する。 9つの下流タスクの実験は、いくつかの反直観的な現象を示している。モデルを一度トレーニングし、推論時に異なるモデルサイズに適応できるシンプルなアプローチであるDynamic Sparsificationを紹介します。
論文参考訳（メタデータ） (2022-04-06T06:29:52Z)
MLPruning: A Multilevel Structured Pruning Framework for Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文参考訳（メタデータ） (2021-05-30T22:00:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。