論文の概要: MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2603.04800v1
- Date: Thu, 05 Mar 2026 04:41:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.069019
- Title: MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models
- Title(参考訳): MASQuant:マルチモーダル大言語モデルのためのモダリティを考慮した平滑化量子化
- Authors: Lulu Hu, Wenhu Xiao, Xin Chen, Xinhua Xu, Bowen Xu, Kun Li, Yongliang Tao,
- Abstract要約: Modality-Aware Smoothing Quantization (MASQuant)は、Modality-Aware Smoothing (MAS)を紹介する新しいフレームワークである。
MASQuantはデュアルモーダルおよびトリモーダルMLLM間の安定量子化性能を示す。
実験の結果,MASQuantは最先端のPTQアルゴリズムと競合することがわかった。
- 参考スコア(独自算出の注目度): 16.69997403621672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training quantization (PTQ) with computational invariance for Large Language Models~(LLMs) have demonstrated remarkable advances, however, their application to Multimodal Large Language Models~(MLLMs) presents substantial challenges. In this paper, we analyze SmoothQuant as a case study and identify two critical issues: Smoothing Misalignment and Cross-Modal Computational Invariance. To address these issues, we propose Modality-Aware Smoothing Quantization (MASQuant), a novel framework that introduces (1) Modality-Aware Smoothing (MAS), which learns separate, modality-specific smoothing factors to prevent Smoothing Misalignment, and (2) Cross-Modal Compensation (CMC), which addresses Cross-modal Computational Invariance by using SVD whitening to transform multi-modal activation differences into low-rank forms, enabling unified quantization across modalities. MASQuant demonstrates stable quantization performance across both dual-modal and tri-modal MLLMs. Experimental results show that MASQuant is competitive among the state-of-the-art PTQ algorithms. Source code: https://github.com/alibaba/EfficientAI.
- Abstract(参考訳): 学習後量子化(PTQ)と大規模言語モデル(LLM)の計算不変性は目覚ましい進歩を見せているが、そのマルチモーダル大規模言語モデル(MLLM)への応用は重大な課題を呈している。
本稿では,SmoothQuantをケーススタディとして分析し,Smoothing MisalignmentとCross-Modal Computational Invarianceの2つの重要な問題を特定する。
これらの問題に対処するために,(1)モダリティ対応の平滑化(MAS)を導入した新しいフレームワークであるMASQuantを提案し,(2)モダリティ固有の平滑化要素を学習して平滑化を防止し,(2)クロスモーダル補償(CMC)により,SVDホワイトニングを用いて多モードアクティベーションの差異を低ランク形式に変換し,モダリティ間の統一量子化を可能にする。
MASQuantはデュアルモーダルおよびトリモーダルMLLM間の安定量子化性能を示す。
実験の結果,MASQuantは最先端のPTQアルゴリズムと競合することがわかった。
ソースコード:https://github.com/alibaba/EfficientAI。
関連論文リスト
- Mitigating Modality Imbalance in Multi-modal Learning via Multi-objective Optimization [57.00656508727821]
マルチモーダル学習(MML)は、複数のモーダルからの情報を統合することを目的としており、単一のモーダル学習よりも優れたパフォーマンスをもたらすことが期待されている。
近年の研究では、MMLはモダリティにまたがる不均衡学習のため、単一モダリティアプローチと比較しても性能が劣っていることが示されている。
本稿では,修正ML問題を解くための勾配に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-11-10T04:16:01Z) - SimMLM: A Simple Framework for Multi-modal Learning with Missing Modality [52.948791050405525]
モーダルを欠くマルチモーダル学習のためのシンプルで強力なフレームワークであるSimMLMを提案する。
SimMLMは、動的で学習可能なゲーティング機構を備えたDMoME(Dynamic Mixture of Modality Experts)アーキテクチャで構成されている。
SimMLMの主な革新はMoFe(MoFe)ランキングの損失の増加であり、より多くのモダリティが利用可能になるにつれてタスクの精度が向上または安定し続けることを保証する。
論文 参考訳(メタデータ) (2025-07-25T13:39:34Z) - Dynamic Modality Scheduling for Multimodal Large Models via Confidence, Uncertainty, and Semantic Consistency [0.0]
本研究では,各モダリティの寄与をサンプル単位で適応的に調整する新しいフレームワークである動的モダリティスケジューリング(DMS)を提案する。
VQA、画像テキスト検索、キャプションタスクの実験結果から、DMSはクリーンとロバストの両方のパフォーマンスを著しく改善することが示された。
論文 参考訳(メタデータ) (2025-06-15T05:15:52Z) - TAMP: Token-Adaptive Layerwise Pruning in Multimodal Large Language Models [23.916205754112774]
MLLM(Multimodal Large Language Models)は多様なマルチモーダルデータやタスクを理解する上で,優れた汎用性を示している。
本稿では,MLLMに適した簡易かつ効果的な刈取フレームワークであるTAMPを提案する。
我々は、視覚言語タスク用に設計されたLLaVA-NeXTと、音声、視覚、言語モーダルを処理可能なVideoLLaMA2の2つの最先端MLLMに対して、本手法の有効性を検証する。
論文 参考訳(メタデータ) (2025-04-14T05:44:38Z) - MQuant: Unleashing the Inference Potential of Multimodal Large Language Models via Full Static Quantization [15.01214559812713]
MQuantは、マルチモーダル大規模言語モデル(MLLM)の課題に取り組むために設計されたポストトレーニング量子化フレームワークである。
5つのメインストリームMLLMでは、W4A8のMQuantがほぼ浮動小数点精度を達成し、推論遅延を最大30%削減する。
我々のMQuantは、資源制約のあるデバイスにおいて、効率よく正確なMLLM推論のためのギャップを効果的に橋渡しします。
論文 参考訳(メタデータ) (2025-02-01T13:08:02Z) - GSIFN: A Graph-Structured and Interlaced-Masked Multimodal Transformer-based Fusion Network for Multimodal Sentiment Analysis [0.0]
マルチモーダルセンチメント分析(MSA)は、複数のデータモーダルを利用して人間の感情を分析する。
既存のMSAモデルでは、MSA能力を促進するために、最先端のマルチモーダル融合と表現学習に基づく手法が一般的である。
提案するGSIFNは,これらの問題を解決するために2つの主成分を組み込んでいる。
これはInterlaced Mask機構を採用し、堅牢なマルチモーダルグラフ埋め込みを構築し、オールモーダルインワントランスフォーマーベースの融合を実現し、計算オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-08-27T06:44:28Z) - Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Retrieval-augmented Multi-modal Chain-of-Thoughts Reasoning for Large
Language Models [56.256069117502385]
Chain of Thought (CoT)アプローチは、複雑な推論タスクにおいて、LLM(Large Language Models)の能力を高めるために使用できる。
しかし、マルチモーダル推論における最適なCoT実例の選択は、まだ検討されていない。
本稿では,この課題に対処する新しい手法として,検索機構を用いて実演例を自動的に選択する手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T08:07:21Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。