論文の概要: LOP: Learning Optimal Pruning for Efficient On-Demand MLLMs Scaling
- arxiv url: http://arxiv.org/abs/2506.12826v1
- Date: Sun, 15 Jun 2025 12:14:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.985273
- Title: LOP: Learning Optimal Pruning for Efficient On-Demand MLLMs Scaling
- Title(参考訳): LOP: 効率的なオンデマンドMLLMスケーリングのための最適プランニング学習
- Authors: Zhihan Zhang, Xiang Pan, Hongchen Wei, Zhenzhong Chen,
- Abstract要約: LOPは、ターゲットプルーニング制約から最適なプルーニング戦略を学ぶ、効率的なニューラルプルーニングフレームワークである。
LOPアプローチでは、自動回帰ニューラルネットワーク(NN)を使用して、ターゲットプルーニング制約に適応したレイヤワイズプルーニング戦略を直接予測する。
実験の結果,LOPは最大3桁のスピードアップを達成しつつ,様々な測定値において最先端のプルーニング手法よりも優れていた。
- 参考スコア(独自算出の注目度): 52.1366057696919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structural pruning techniques are essential for deploying multimodal large language models (MLLMs) across various hardware platforms, from edge devices to cloud servers. However, current pruning methods typically determine optimal strategies through iterative search processes, resulting in substantial computational overhead for on-demand MLLMs adaptation. To address this challenge, we propose LOP, an efficient neural pruning framework that learns optimal pruning strategies from the target pruning constraint, eliminating the need for computationally expensive search-based methods. LOP approach trains autoregressive neural networks (NNs) to directly predict layer-wise pruning strategies adaptive to the target pruning constraint, eliminating the time-consuming iterative searches. Experimental results across multiple tasks show that LOP outperforms state-of-the-art pruning methods in various metrics while achieving up to three orders of magnitude speedup.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)をエッジデバイスからクラウドサーバまで,さまざまなハードウェアプラットフォームにデプロイするには,構造的プルーニング技術が不可欠である。
しかし、現在のプルーニング法は、通常反復探索プロセスを通じて最適な戦略を決定するため、オンデマンドMLLMの適応にはかなりの計算オーバーヘッドが生じる。
この課題に対処するために,目的プルーニング制約から最適なプルーニング戦略を学習し,計算コストの高い検索手法の必要性を排除した,効率的なニューラルプルーニングフレームワーク LOP を提案する。
LOPアプローチでは、自動回帰ニューラルネットワーク(NN)を使用して、ターゲットプルーニング制約に適応したレイヤーワイズプルーニング戦略を直接予測し、時間を要する反復探索を排除している。
複数のタスクにまたがる実験の結果、LOPは最大3桁のスピードアップを達成しつつ、様々なメトリクスで最先端のプルーニング手法より優れていた。
関連論文リスト
- TreeLoRA: Efficient Continual Learning via Layer-Wise LoRAs Guided by a Hierarchical Gradient-Similarity Tree [52.44403214958304]
本稿では階層的な勾配の類似性を利用して階層型アダプタを構築する新しい手法であるTreeLoRAを紹介する。
タスク類似度推定の計算負担を軽減するために,より低い信頼度境界に基づくアルゴリズムを開発するために,バンド手法を用いる。
視覚変換器 (ViTs) と大規模言語モデル (LLMs) の両方を用いた実験により, 提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2025-06-12T05:25:35Z) - Towards Efficient Multi-LLM Inference: Characterization and Analysis of LLM Routing and Hierarchical Techniques [14.892995952768352]
言語モデル(LM)は、テキスト生成、要約、質問応答といったタスクに優れています。
彼らの推論は計算コストが高く、ハードウェア、電力、帯域幅に制限のある設定でエネルギーを集中的に消費する。
近年のアプローチでは、クエリの複雑さに基づいて、動的に計算資源を割り当てる複数のLLMインテリジェントモデル選択戦略が導入されている。
論文 参考訳(メタデータ) (2025-06-06T23:13:08Z) - SPAP: Structured Pruning via Alternating Optimization and Penalty Methods [2.1388885579612804]
大規模言語モデル(LLM)は、しばしば計算とメモリの要求によって制約される。
最適化理論に基づくLLMのための新規かつ効率的な構造化プルーニングフレームワークであるSPAP(Structured Pruning via Alternating Optimization and Penalty Methods)を提案する。
我々の研究は、モデル性能を保ちながらLLMを刈り取るための実用的で最適化駆動のソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-06T09:47:53Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Combining Multi-Objective Bayesian Optimization with Reinforcement Learning for TinyML [4.2019872499238256]
多目的ベイズ最適化(MOBOpt)に基づくマイクロコントローラ(TinyML)にディープニューラルネットワークをデプロイするための新しい戦略を提案する。
本手法は,DNNの予測精度,メモリ要求,計算複雑性のトレードオフを効率的に検出することを目的としている。
論文 参考訳(メタデータ) (2023-05-23T14:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。