論文の概要: MorphoQuant: Modality-Aware Quantization for Omni-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2606.04349v2
- Date: Fri, 05 Jun 2026 07:15:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.305199
- Title: MorphoQuant: Modality-Aware Quantization for Omni-modal Large Language Models
- Title(参考訳): MorphoQuant: Omni-Modal Large Language ModelのためのModality-Aware Quantization
- Authors: Yue Wu, Changyuan Wang, Zixuan Wang, Shilin Ma, Yansong Tang,
- Abstract要約: 本稿では,モダリティを考慮したPTQフレームワークを提案する。
Distribution-Aware Bias Compensation (DABC) は、長い尾の外れ値からチャネルのバイアスを選択的に吸収する。
また,量子化格子をバイアスマスクと共最適化するために,MDQFO (Morphology-Directed Quantization Function Optimization) を提案する。
- 参考スコア(独自算出の注目度): 57.87791117741788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional Post-Training Quantization (PTQ) methods struggle with 4-bit Omni-modal Large Language Models (OLLMs) due to the extreme distribution heterogeneity and disparate outlier patterns across modalities. To address this, we propose MorphoQuant, a modality-aware PTQ framework engineered to preserve cross-modal morphology and mitigate outlier loss. Specifically, we introduce Distribution-Aware Bias Compensation (DABC), which selectively absorbs long-tailed outliers into channel-wise biases. This mechanism safeguards outlier magnitudes while maintaining high-precision discretization for dense inliers, thereby preserving accurate discretization across diverse modal distribution. Complementing this, we propose Morphology-Directed Quantization Function Optimization (MDQFO) to co-optimize the quantization grid with the bias mask, ensuring fine-grained alignment across modalities. Extensive evaluations on Qwen2.5-Omni across benchmarks like MMMU and Video-MME demonstrate our approach's superiority. Notably, our W4A4 model achieves 76.63% on ScienceQA, significantly outperforming SOTA W4A4 methods and surprisingly surpassing the W4A16 baseline, which fully demonstrates the exceptional accuracy-efficiency trade-off of our framework.
- Abstract(参考訳): 4ビットのOmni-Modal Large Language Models (OLLMs) と競合する従来のPTQ法は, 極端分布の不均一性と, モダリティの相違による外乱パターンの相違が原因である。
そこで本研究では,モダリティを意識したPTQフレームワークであるMorphoQuantを提案する。
具体的には、長い尾の外れ値からチャネルのバイアスを選択的に吸収するDis Distribution-Aware Bias Compensation (DABC)を導入する。
この機構は、高密度のインレーヤに対する高精度な離散化を維持しつつ、外乱等級を保護し、様々なモード分布にわたって正確な離散化を保っている。
そこで本稿では,モーフォロジー指向量子化関数最適化法(MDQFO)を提案する。
MMMUやVideo-MMEといったベンチマークによるQwen2.5-Omniの大規模な評価は、我々のアプローチの優位性を示している。
特に、我々のW4A4モデルはScienceQAで76.63%を達成し、SOTA W4A4メソッドを著しく上回り、W4A16ベースラインを驚くほど上回っている。
関連論文リスト
- Breaking Modality Heterogeneity in Low-Bit Quantization for Large Vision-Language Models [36.14224700486847]
低ビット後量子化(PTQ)は、リソース制約されたデバイスにビジョンランゲージモデル(VLM)をデプロイするための重要な技術である。
既存のPTQ法は、量子化中のテキストと視覚の非均一な活性化分布のために、VLMの精度を劣化させることが多い。
チャネル分割駆動のポストトレーニング量子化フレームワークであるSplitQを提案する。
論文 参考訳(メタデータ) (2026-05-19T14:49:57Z) - SOAR: Scale Optimization for Accurate Reconstruction in NVFP4 Quantization [19.022444007775896]
NVFP4は、最近、大規模言語モデルの効率的な4ビットマイクロスケーリングフォーマットとして登場した。
既存の方法は、しばしば、柔軟性のないスケールの選択と、量子化と量子化のスケールの併用による、最適以下の性能をもたらす。
NVFP4量子化の精度を向上する新しい学習後量子化フレームワークであるSOAR(Scale Optimization for Accurate Reconstruction)を提案する。
論文 参考訳(メタデータ) (2026-05-12T15:13:18Z) - BATQuant: Outlier-resilient MXFP4 Quantization via Learnable Block-wise Optimization [34.40883652676667]
MXFP4に適用した場合, 評価後量子化法は深刻な性能低下に悩まされる。
本稿では,MXFPと整合する変換を制限するBATQuantを提案する。
我々は、BATQuantが攻撃的なW4A4KV16構成の下で、最先端の新たな結果を確立することを示す。
論文 参考訳(メタデータ) (2026-03-17T14:37:08Z) - ARCQuant: Boosting NVFP4 Quantization with Augmented Residual Channels for LLMs [4.431548809730958]
ARCQuantは、Augmented Residual Channelsを通じてNVFP4パフォーマンスを向上させるフレームワークである。
ARCQuantは、複雑なタスクや下流タスクにおいて、完全精度のベースラインに匹敵する、最先端の精度を実現する。
論文 参考訳(メタデータ) (2026-01-12T12:27:22Z) - AWPO: Enhancing Tool-Use of Large Language Models through Explicit Integration of Reasoning Rewards [60.2998874976509]
我々は,ツール利用能力を高めるために,明示的な推論報酬を統合するために,有利なポリシー最適化(AWPO)を提案する。
AWPOは分散認識ゲーティングと困難認識重み付けを導入し、推論信号から利点を適応的に変調する。
実験により、AWPOは標準的なツール使用ベンチマークで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-12-22T08:07:00Z) - Improving Block-Wise LLM Quantization by 4-bit Block-Wise Optimal Float (BOF4): Analysis and Variations [22.127873567034825]
大規模言語モデル(LLM)は、微調整と推論の両方で広範なメモリ容量を必要とする。
既存の手法では、NF4やAF4といったブロックワイド量子化技術がネットワーク重みに適用されている。
これらの量子化手法が最適以下の量子化誤差を引き起こすことを示す。
論文 参考訳(メタデータ) (2025-05-10T14:00:15Z) - TCAQ-DM: Timestep-Channel Adaptive Quantization for Diffusion Models [49.65286242048452]
拡散モデル(TCAQ-DM)のためのタイムステップ・チャネル適応量子化法を提案する。
提案手法は,ほとんどの場合,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-12-21T16:57:54Z) - Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。
本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。
入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。