論文の概要: Gated Relational Alignment via Confidence-based Distillation for Efficient VLMs
- arxiv url: http://arxiv.org/abs/2601.22709v1
- Date: Fri, 30 Jan 2026 08:30:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.325937
- Title: Gated Relational Alignment via Confidence-based Distillation for Efficient VLMs
- Title(参考訳): 信頼性に基づく高効率VLM用蒸留によるゲート型関係配向
- Authors: Yanlong Chen, Amirhossein Habibian, Luca Benini, Yawei Li,
- Abstract要約: VLM(Vision-Language Models)は、強力なマルチモーダル性能を実現するが、デプロイにコストがかかり、トレーニング後の量子化は、しばしばかなりの精度を失う。
本稿では,知識蒸留とQATを統合化するためのフレームワークであるGRACEを提案する。
教師をタスク関連情報のプロキシとして扱うことで,信頼できない監督をフィルタリングするために,信頼度の高い分離蒸留を導入する。
- 参考スコア(独自算出の注目度): 22.280338887759623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) achieve strong multimodal performance but are costly to deploy, and post-training quantization often causes significant accuracy loss. Despite its potential, quantization-aware training for VLMs remains underexplored. We propose GRACE, a framework unifying knowledge distillation and QAT under the Information Bottleneck principle: quantization constrains information capacity while distillation guides what to preserve within this budget. Treating the teacher as a proxy for task-relevant information, we introduce confidence-gated decoupled distillation to filter unreliable supervision, relational centered kernel alignment to transfer visual token structures, and an adaptive controller via Lagrangian relaxation to balance fidelity against capacity constraints. Across extensive benchmarks on LLaVA and Qwen families, our INT4 models consistently outperform FP16 baselines (e.g., LLaVA-1.5-7B: 70.1 vs. 66.8 on SQA; Qwen2-VL-2B: 76.9 vs. 72.6 on MMBench), nearly matching teacher performance. Using real INT4 kernel, we achieve 3$\times$ throughput with 54% memory reduction. This principled framework significantly outperforms existing quantization methods, making GRACE a compelling solution for resource-constrained deployment.
- Abstract(参考訳): VLM(Vision-Language Models)は、強力なマルチモーダル性能を実現するが、デプロイにコストがかかり、トレーニング後の量子化は、しばしばかなりの精度を失う。
その可能性にもかかわらず、VLMの量子化対応のトレーニングはいまだに未定である。
本稿では,知識蒸留とQATを統合するフレームワークであるGRACEを提案する。
教師をタスク関連情報の代用として扱うことで,信頼できない監督,視覚トークン構造を伝達するためのリレーショナル中心カーネルアライメント,キャパシティ制約に対する忠実さのバランスをとるためのラグランジアン緩和を用いた適応制御を行う。
LLaVAとQwenファミリーに関する広範なベンチマークでは、私たちのINT4モデルは一貫してFP16ベースライン(例えば、LLaVA-1.5-7B: 70.1 vs. 66.8、SQA: Qwen2-VL-2B: 76.9 vs. 72.6、MMBench)を上回っています。
実のINT4カーネルを使用して,54%のメモリ削減で3$\times$スループットを実現しています。
この原理的なフレームワークは既存の量子化手法を著しく上回り、GRACEはリソース制約されたデプロイメントのための魅力的なソリューションとなる。
関連論文リスト
- SAIR: Cost-Efficient Multi-Stage ML Pipeline Autoscaling via In-Context Reinforcement Learning [13.174004826305255]
マルチステージML推論パイプラインは、異種リソース、クロスステージ結合、動的ボトルネックマイグレーションによる自動スケールが難しい。
本稿では,LLMをテキスト内強化学習コントローラとして使用する自動スケーリングフレームワークであるSAIRを提案する。
SAIRはデプロイベースライン間で最高のあるいは結びついたP99レイテンシと効果的なリソースコストを実現し、P99を最大50%改善し、有効コストを最大97%削減する。
論文 参考訳(メタデータ) (2026-01-29T23:08:15Z) - What Makes Low-Bit Quantization-Aware Training Work for Reasoning LLMs? A Systematic Study [59.44848132298657]
ポストトレーニング量子化(PTQ)は通常、特に低ビット設定でのタスクの推論において、大きな精度低下のコストが伴う。
本研究では,推論モデルに対する量子化認識学習(QAT)の体系的研究について述べる。
論文 参考訳(メタデータ) (2026-01-21T11:22:29Z) - A Fano-Style Accuracy Upper Bound for LLM Single-Pass Reasoning in Multi-Hop QA [65.38186593873313]
MHQA(Multi-Hop Question Answering)は、ノイズ下でのシーケンシャルな推論を通じて、分散した相互依存的な証拠を統合する必要がある。
我々はMHQAのための概念実証マルチコールフレームワークをInfoQAで紹介する。
我々は、理論とフレームワークを検証するために、厳密で騒音に富んだベンチマークを構築した。
論文 参考訳(メタデータ) (2025-09-25T14:11:57Z) - QUADS: QUAntized Distillation Framework for Efficient Speech Language Understanding [0.0]
既存の方法は蒸留と量子化を別々に適用し、最適以下の圧縮に繋がる。
我々は,事前学習モデルを用いたマルチステージトレーニングにより,双方を最適化する統合フレームワーク QUADS を提案する。
QUIDSはSLURPで71.13%、FSCで99.20%の精度を達成し、最先端モデルと比較して5.56%の小さな劣化しか達成していない。
論文 参考訳(メタデータ) (2025-05-19T16:09:51Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z) - P4Q: Learning to Prompt for Quantization in Visual-language Models [38.87018242616165]
量子化のためのPrompt(P4Q)という,微調整と量子化のバランスをとる手法を提案する。
提案手法は,低ビット量子化による画像特徴とテキスト特徴とのギャップを効果的に低減することができる。
私たちの8ビットP4Qは理論上CLIP-ViT/B-32を4$times$で圧縮でき、Top-1の精度は66.94%である。
論文 参考訳(メタデータ) (2024-09-26T08:31:27Z) - QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving [52.31791050376249]
量子化は大規模言語モデル(LLM)の推論を加速させる。
4ビット重み、8ビットアクティベーション、4ビットKVキャッシュを備えたW4A8KV4量子化アルゴリズムQoQを導入する。
QServeは、Llama-3-8BをA100で1.2倍、L40Sで1.4倍、Qwen-721.5BをA100で2.4倍、L40Sで3.5倍、達成可能な最大機能を改善する。
論文 参考訳(メタデータ) (2024-05-07T17:59:30Z) - ZeroQuant-FP: A Leap Forward in LLMs Post-Training W4A8 Quantization
Using Floating-Point Formats [25.543571445739936]
本研究では,大規模言語モデル(LLM)における浮動小数点量子化(FP)の実現可能性について検討する。
LLMでは、FP8のアクティベーションは整数(INT8)を一貫して上回り、性能エッジは10億を超えるパラメータを持つモデルではより顕著になる。
重量量子化では、FP4はINT4に匹敵する性能を示し、H100のようなFP対応ハードウェアへの展開を単純化している。
論文 参考訳(メタデータ) (2023-07-19T06:58:03Z) - Q-DETR: An Efficient Low-Bit Quantized Detection Transformer [50.00784028552792]
Q-DETRのボトルネックは、我々の経験的分析によるクエリ情報の歪みから生じる。
情報ボトルネック(IB)の原理をQ-DETRの学習に一般化することで導出できる2レベル最適化問題としてDRDを定式化する。
本研究では,教師情報を蒸留所要の機能に効果的に転送し,条件情報エントロピーを最小化する,フォアグラウンド対応クエリマッチング手法を提案する。
論文 参考訳(メタデータ) (2023-04-01T08:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。