Fugu-MT 論文翻訳(概要): QAPruner: Quantization-Aware Vision Token Pruning for Multimodal Large Language Models

論文の概要: QAPruner: Quantization-Aware Vision Token Pruning for Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2604.02816v1
Date: Fri, 03 Apr 2026 07:32:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 17:20:24.373766
Title: QAPruner: Quantization-Aware Vision Token Pruning for Multimodal Large Language Models
Title（参考訳）: QAPruner: マルチモーダル大規模言語モデルのための量子化対応視覚整形処理
Authors: Xinhao Wang, Zhonyu Xia, Zhiwei Lin, Zhe Li, Yongtao Wang,
Abstract要約: MLLM(Multimodal Large Language Models)は、強力な推論能力を示しているが、その高い計算とメモリコストは、リソース制約された設定でのデプロイメントを妨げる。ポストトレーニング量子化(PTQ)とビジョントークンプルーニングは標準的な圧縮技術であるが、通常は独立した最適化として扱われる。本稿では,これらの2つの手法が強く結合していることを示し,PTQ最適化MLLMに対して意味に基づくトークンプルーニングを適用することにより,数値安定性に重要なアクティベーションアウトレーヤを廃止し,低ビット状態における量子化誤差を悪化させることができることを示す。量子化対応型視覚トークンプルーニングフレームワークを提案する。
参考スコア（独自算出の注目度）: 18.353831760548267
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Multimodal Large Language Models (MLLMs) have shown strong reasoning ability, but their high computational and memory costs hinder deployment in resource-constrained settings. While Post-Training Quantization (PTQ) and vision token pruning are standard compression techniques, they are usually treated as independent optimizations. In this paper, we show that these two techniques are strongly coupled: naively applying semantic-based token pruning to PTQ-optimized MLLMs can discard activation outliers that are important for numerical stability and thus worsen quantization errors in low-bit regimes (\textit{e.g.}, W4A4). To address this issue, we propose a quantization-aware vision token pruning framework. Our method introduces a lightweight hybrid sensitivity metric that combines simulated group-wise quantization error with outlier intensity. By combining this metric with standard semantic relevance scores, the method retains tokens that are both semantically informative and robust to quantization. Experiments on standard LLaVA architectures show that our method consistently outperforms naive integration baselines. At an aggressive pruning ratio that retains only 12.5\% of visual tokens, our framework improves accuracy by 2.24\% over the baseline and even surpasses dense quantization without pruning. To the best of our knowledge, this is the first method that explicitly co-optimizes vision token pruning and PTQ for accurate low-bit MLLM inference.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は、強力な推論能力を示しているが、その高い計算コストとメモリコストは、リソース制約された設定でのデプロイメントを妨げる。ポストトレーニング量子化(PTQ)とビジョントークンプルーニングは標準的な圧縮技術であるが、通常は独立した最適化として扱われる。本稿では,これら2つの手法が強く結合されていることを示す。PTQ最適化MLLMに意味ベーストークンプルーニングを適用したことにより,数値安定性に重要なアクティベーション・アウトレーヤを廃止し,低ビット状態における量子化誤差を悪化させることができる(\textit{e g },W4A4)。この問題に対処するために、量子化対応の視覚トークンプルーニングフレームワークを提案する。本手法では,シミュレーションされたグループワイド量子化誤差と外れ値強度を組み合わせた軽量なハイブリッド感度測定法を提案する。この計量と標準的な意味関連スコアを組み合わせることで、この方法は意味的に情報的かつ量子化に頑健なトークンを保持する。標準LLaVAアーキテクチャの実験により、我々の手法は、直感的な統合ベースラインを一貫して上回ることを示した。目視トークンの12.5\%しか保持しないアグレッシブプルーニング比では、我々のフレームワークはベースライン上で精度を2.24\%向上し、プルーニングなしで密度量子化を超越する。我々の知る限りでは、これは視覚トークンのプルーニングとPTQを正確に低ビットMLLM推論に明示的に最適化する最初の方法である。

関連論文リスト

Rethinking Token Reduction for Large Vision-Language Models [95.48478689025696]
LVLM(Large-Language Models)は、視覚的理解と推論において優れているが、過度の視覚トークンは高い推論コストをもたらす。一般化設計の限界を克服し,メタコンプレックスと呼ばれる学習に基づくプロンプト非依存型メタコンプレックスを提案する。
論文参考訳（メタデータ） (2026-03-23T08:40:08Z)
IDPruner: Harmonizing Importance and Diversity in Visual Token Pruning for MLLMs [11.254129271889035]
視覚トークンのプルーニングはMLLM推論を加速させる重要な手法として登場した。 IDPrunerは最先端のパフォーマンスを実現し、様々なアーキテクチャやタスクにまたがる優れた一般化を実現している。
論文参考訳（メタデータ） (2026-02-10T11:20:24Z)
VEQ: Modality-Adaptive Quantization for MoE Vision-Language Models [41.557274086591924]
PTQ(Post-Training Quantization)は、大量のメモリと計算オーバーヘッドに対処する効果的なトレーニング不要の手法である。ビジュアルエキスパート量子化(VEQ)は、クロスモーダルな違いと専門家の不均一性に対応するために設計された、デュアルアウェアな量子化フレームワークである。本手法は,従来のSOTA量子化法と比較して,Kim-VLでは2.04%,Qwen3-VLでは3.09%の精度向上を実現している。
論文参考訳（メタデータ） (2026-02-01T05:53:09Z)
FrugalPrompt: Reducing Contextual Overhead in Large Language Models via Token Attribution [3.4666771782038652]
大規模言語モデル(LLM)は、その恒星の性能の大部分を入力コンテキストの拡大に負っているが、そのような冗長性は金銭的コスト、炭素フットプリント、推論時間の遅延を膨らませている。本稿では,LLMのための新しいプロンプト圧縮フレームワークであるFrugalPromptを紹介する。我々は,4つのNLPタスク(感性分析,コモンセンスQA,要約,数学的推論)にまたがるアプローチを評価する。
論文参考訳（メタデータ） (2025-10-18T10:22:13Z)
Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。 Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文参考訳（メタデータ） (2025-09-28T13:27:38Z)
VLMQ: Efficient Post-Training Quantization for Large Vision-Language Models via Hessian Augmentation [8.891793681316992]
ポストトレーニング量子化(PTQ)は、大規模なモデルを圧縮し、再トレーニングせずに推論を加速するための効果的なアプローチとして登場した。 PTQは大規模言語モデル (LLMs) の文脈で広く研究されているが、視覚言語モデル (VLMs) への適用性はまだ未検討である。本稿では,VLMQ と呼ばれる VLM に適した PTQ フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-05T11:57:03Z)
MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文参考訳（メタデータ） (2025-07-06T08:16:50Z)
Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文参考訳（メタデータ） (2024-11-26T15:35:44Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。