論文の概要: The Effect of Compression Techniques on Large Multimodal Language Models in the Medical Domain
- arxiv url: http://arxiv.org/abs/2507.21976v1
- Date: Tue, 29 Jul 2025 16:25:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.661283
- Title: The Effect of Compression Techniques on Large Multimodal Language Models in the Medical Domain
- Title(参考訳): 医療領域における圧縮技術が大規模マルチモーダル言語モデルに及ぼす影響
- Authors: Tanvir Ahmed Khan, Aranya Saha, Ismam Nur Swapnil, Mohammad Ariful Haque,
- Abstract要約: 本稿では、医療応用のための微調整LAVAモデルにおける構造解析とアクティベーション対応量子化の影響について検討する。
本研究では, プルー・SFT量子化パイプラインにおいて, 異なる量子化手法を解析し, 性能トレードオフを評価する新しい層選択法を提案する。
- 参考スコア(独自算出の注目度): 0.690569665046408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) hold huge potential for usage in the medical domain, but their computational costs necessitate efficient compression techniques. This paper evaluates the impact of structural pruning and activation-aware quantization on a fine-tuned LLAVA model for medical applications. We propose a novel layer selection method for pruning, analyze different quantization techniques, and assess the performance trade-offs in a prune-SFT-quantize pipeline. Our proposed method enables MLLMs with 7B parameters to run within 4 GB of VRAM, reducing memory usage by 70% while achieving 4% higher model performance compared to traditional pruning and quantization techniques in the same compression ratio.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は医療領域での利用には大きな可能性を秘めているが、その計算コストは効率的な圧縮技術を必要とする。
本稿では、医療応用のための微調整LAVAモデルにおける構造解析とアクティベーション対応量子化の影響について検討する。
本研究では, プルー・SFT量子化パイプラインにおいて, 異なる量子化手法を解析し, 性能トレードオフを評価する新しい層選択法を提案する。
提案手法は,7Bパラメータを持つMLLMを4GBのVRAM内で動作させ,メモリ使用率を70%削減し,従来のプルーニング法や量子化法に比べて4%高いモデル性能を実現した。
関連論文リスト
- Investigating Structural Pruning and Recovery Techniques for Compressing Multimodal Large Language Models: An Empirical Study [64.26593350748401]
MLLM(Multimodal Large Language Models)は印象的な機能を示す。
SLM(Small Language Models)からのMLLMの学習を主とするパラメータ削減技術
本稿では, 構造物の刈り込みと効率的な回復訓練を組み合わせることで, 既存のMLLMを直接圧縮することを提案する。
論文 参考訳(メタデータ) (2025-07-28T11:57:52Z) - CASP: Compression of Large Multimodal Models Based on Attention Sparsity [8.385413230868805]
大規模マルチモーダルモデル(LMM)のためのモデル圧縮手法であるCASPを紹介する。
提案手法では,クエリおよびキー重み行列上でデータ対応低ランク分解を行い,次いで最適なビット割り当てプロセスに基づいて全層にわたって量子化を行う。
任意の量子化技術と互換性があり、画像およびビデオ言語ベンチマークで平均21%の精度で最先端の2ビット量子化手法(AQLMとQuIP#)を強化する。
論文 参考訳(メタデータ) (2025-03-07T21:11:44Z) - When Compression Meets Model Compression: Memory-Efficient Double Compression for Large Language Models [12.687035979970194]
本稿では,量子化後の大規模言語モデル(LLM)を圧縮するフレームワークを提案する。
量子化に先立ってモデルパラメータを再スケーリングすることにより, モデル重量圧縮性を高めるために, 圧縮対応量子化法が最初に提案され, さらにさらに改良するプルーニング法が提案されている。
圧縮されたモデルによる推論は、精度と推論速度の損失を無視して、メモリサイズを40%削減できることを示す実験である。
論文 参考訳(メタデータ) (2025-02-21T13:11:22Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Optimizing Large Language Models through Quantization: A Comparative Analysis of PTQ and QAT Techniques [0.0]
量子化はモデルサイズを最大68%削減できる。
Int8量子化は計算コストと消費電力を40%削減する。
Int4量子化はこれらの指標をさらに60%改善する。
論文 参考訳(メタデータ) (2024-11-09T06:30:13Z) - CompactifAI: Extreme Compression of Large Language Models using Quantum-Inspired Tensor Networks [1.5199992713356987]
本稿では、量子インスパイアされたネットワークを用いた革新的な圧縮手法であるCompactifAIを紹介する。
我々の手法は万能であり、他の圧縮技術で実装することができる。
ベンチマークとして、CompactifAIと量子化の組み合わせにより、LlaMA 7Bの93%のメモリサイズを削減できることを示す。
論文 参考訳(メタデータ) (2024-01-25T11:45:21Z) - ComPEFT: Compression for Communicating Parameter Efficient Updates via
Sparsification and Quantization [100.90624220423634]
PEFTモデルにおける微調整残差(タスクベクトル)を圧縮する新しい手法であるComPEFTを提案する。
200M - 65Bパラメータを持つT5, T0, LLaMA ベースのモデルにおいて, ComPEFT は圧縮比 8x - 50x を達成する。
論文 参考訳(メタデータ) (2023-11-22T05:28:59Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - A Model Compression Method with Matrix Product Operators for Speech
Enhancement [15.066942043773267]
本稿では,行列積演算子(MPO)に基づくモデル圧縮手法を提案する。
本稿では,特にクラウドフリーアプリケーションにおいて,音声強調のための効果的なモデル圧縮手法を提案する。
論文 参考訳(メタデータ) (2020-10-10T08:53:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。