論文の概要: Large Multimodal Model Compression via Efficient Pruning and Distillation at AntGroup
- arxiv url: http://arxiv.org/abs/2312.05795v2
- Date: Tue, 25 Jun 2024 03:53:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 20:50:02.417653
- Title: Large Multimodal Model Compression via Efficient Pruning and Distillation at AntGroup
- Title(参考訳): AntGroupにおける効率的なプルーニングと蒸留による大規模マルチモーダルモデル圧縮
- Authors: Maolin Wang, Yao Zhao, Jiajia Liu, Jingdong Chen, Chenyi Zhuang, Jinjie Gu, Ruocheng Guo, Xiangyu Zhao,
- Abstract要約: 本稿では,当社独自のLLMであるAntGMMに対して,新しいマルチステージ圧縮戦略を提案する。
当社のアプローチはレイテンシを大幅に削減し,700msから90msに削減した。
圧縮モデルでは,AntGMMの直接配置と比較して,年間約7500万kWhの電力消費量削減が期待できる。
- 参考スコア(独自算出の注目度): 78.97576482387524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deployment of Large Multimodal Models (LMMs) within AntGroup has significantly advanced multimodal tasks in payment, security, and advertising, notably enhancing advertisement audition tasks in Alipay. However, the deployment of such sizable models introduces challenges, particularly in increased latency and carbon emissions, which are antithetical to the ideals of Green AI. This paper introduces a novel multi-stage compression strategy for our proprietary LLM, AntGMM. Our methodology pivots on three main aspects: employing small training sample sizes, addressing multi-level redundancy through multi-stage pruning, and introducing an advanced distillation loss design. In our research, we constructed a dataset, the Multimodal Advertisement Audition Dataset (MAAD), from real-world scenarios within Alipay, and conducted experiments to validate the reliability of our proposed strategy. Furthermore, the effectiveness of our strategy is evident in its operational success in Alipay's real-world multimodal advertisement audition for three months from September 2023. Notably, our approach achieved a substantial reduction in latency, decreasing it from 700ms to 90ms, while maintaining online performance with only a slight performance decrease. Moreover, our compressed model is estimated to reduce electricity consumption by approximately 75 million kWh annually compared to the direct deployment of AntGMM, demonstrating our commitment to green AI initiatives. We will publicly release our code and the MAAD dataset after some reviews\footnote{https://github.com/MorinW/AntGMM$\_$Pruning}.
- Abstract(参考訳): AntGroupにLarge Multimodal Models(LMM)が配備されたことにより、Alipayにおける広告オーディションタスクの強化など、支払い、セキュリティ、広告におけるマルチモーダルタスクが大幅に進歩した。
しかし、このような大規模なモデルの展開は、特にグリーンAIの理想に反するレイテンシや二酸化炭素排出量の増加において、課題をもたらす。
本稿では,当社独自のLLMであるAntGMMに対して,新しいマルチステージ圧縮戦略を提案する。
提案手法は, サンプルサイズを小型化すること, マルチステージプルーニングによる多段冗長性に対処すること, 高度蒸留損失設計を導入すること, の3つの主要な側面に焦点をあてる。
本研究では,Alipay内の現実シナリオからマルチモーダル・オーディション・データセット(MAAD)というデータセットを構築し,提案手法の信頼性を検証する実験を行った。
さらに,2023年9月から3ヶ月のAlipayのマルチモーダル広告オーディションにおける運用成功においても,この戦略の有効性は明らかである。
特に,本手法はレイテンシを大幅に低減し,700msから90msに短縮した。
さらに,我々の圧縮モデルでは,AntGMMの直接展開と比較して,年間約7500万kWhの消費電力削減が期待でき,グリーンAIイニシアチブへのコミットメントを示す。
いくつかのレビュー(footnote{https://github.com/MorinW/AntGMM$\_$Pruning})の後、私たちのコードとMAADデータセットを公開します。
関連論文リスト
- Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - Less is More: A Simple yet Effective Token Reduction Method for Efficient Multi-modal LLMs [14.533229831531168]
MLLMの効率向上を目的とした新しい手法であるTRIM(CLIP Metric)を導入する。
視覚質問応答(VQA)タスクにおける人間の注意パターンにインスパイアされたTRIMは、画像トークンの選択と縮小について、新たな視点を示す。
その結果,一貫した性能を維持しながら計算オーバーヘッドを著しく低減した。
論文 参考訳(メタデータ) (2024-09-17T08:56:27Z) - Multi-Task Combinatorial Bandits for Budget Allocation [7.52750519688457]
今日のトップ広告主は、通常、数百のキャンペーンを同時に管理し、年間を通じて一貫して新しいキャンペーンをローンチします。
マーケティングマネージャにとって重要な課題は、累積リターンを最大化するために、各キャンペーンにおいて様々な広告ラインで限られた予算を最適に割り当てることである。
本稿では,マルチタスクバンディット問題として予算配分を定式化し,新たなオンライン予算配分システムを提案する。
論文 参考訳(メタデータ) (2024-08-31T23:19:49Z) - SCAR: Scheduling Multi-Model AI Workloads on Heterogeneous Multi-Chiplet Module Accelerators [12.416683044819955]
最近の大規模言語モデルのような重モデルによるマルチモデルワークロードは、ハードウェアにおける計算とメモリの要求を大幅に増加させた。
このような要求に対処するため、スケーラブルなハードウェアアーキテクチャを設計することが重要な問題となった。
我々は,巨大なスケジューリング空間をナビゲートするスケジューラのセットを開発し,それらをスケジューラであるSCARに符号化する。
論文 参考訳(メタデータ) (2024-05-01T18:02:25Z) - Multimodal Instruction Tuning with Conditional Mixture of LoRA [54.65520214291653]
本稿では,Low-Rank Adaption (LoRA) とマルチモーダル命令チューニングを統合した新しい手法を提案する。
各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築することで、LoRAを革新する。
様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等以上のランクで上回るだけでなく、性能も向上していることが示された。
論文 参考訳(メタデータ) (2024-02-24T20:15:31Z) - Chameleon: Foundation Models for Fairness-aware Multi-modal Data
Augmentation to Enhance Coverage of Minorities [25.215178019059874]
訓練データにおけるマイノリティの下位表現は、よく認識されている関心事である。
提案するChameleonは、最小限の設定を加えてデータセットを拡張して、表現されていないグループの範囲を拡大するシステムである。
提案アルゴリズムの有効性を確認するとともに,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-02-02T00:16:45Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。