論文の概要: LLaVA-FA: Learning Fourier Approximation for Compressing Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2602.00135v1
- Date: Wed, 28 Jan 2026 09:39:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:32.969745
- Title: LLaVA-FA: Learning Fourier Approximation for Compressing Large Multimodal Models
- Title(参考訳): LLaVA-FA:大規模マルチモーダルモデル圧縮のためのフーリエ近似学習
- Authors: Pengcheng Zheng, Chaoning Zhang, Jiarong Mo, GuoHui Li, Jiaquan Zhang, Jiahao Zhang, Sihan Cao, Sheng Zheng, Caiyan Qin, Guoqing Wang, Yang Yang,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は、様々な視覚言語タスクにおいて印象的な性能を達成している。
既存の圧縮法は、しばしば低ランクの分解と量子化を分離し、複雑な再構成エラーを引き起こす。
LLaVA-FAは、周波数領域において、共振器の低ランク化と量子化の近似を行う新しい効率なLMMである。
- 参考スコア(独自算出の注目度): 23.184422544852108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large multimodal models (LMMs) have achieved impressive performance on various vision-language tasks, but their substantial computational and memory costs hinder their practical deployment. Existing compression methods often decouple low-rank decomposition and quantization, leading to compounded reconstruction errors, especially in multimodal architectures with cross-modal redundancy. To address this issue, we propose LLaVA-FA, a novel efficient LMM that performs joint low-rank plus quantization approximation in the frequency domain. By leveraging the de-correlation and conjugate symmetry properties of Fourier transform, LLaVA-FA achieves more compact and accurate weight representations. Furthermore, we introduce PolarQuant, a polar-coordinate quantization method tailored for complex matrices, and an optional diagonal calibration (ODC) scheme that eliminates the need for large-scale calibration data. Extensive experimental results demonstrate that our proposed LLaVA-FA outperforms existing efficient multimodal models across multiple benchmarks while maintaining minimal activated parameters and low computational costs, validating its effectiveness as a powerful solution for compressing LMMs.
- Abstract(参考訳): 大規模マルチモーダルモデル (LMM) は様々な視覚言語タスクにおいて顕著な性能を達成しているが、その計算とメモリのコストは実際の展開を妨げている。
既存の圧縮法は、しばしば低ランク分解と量子化を分離し、特にクロスモーダル冗長性を持つマルチモーダルアーキテクチャにおいて複合的な再構成エラーを引き起こす。
この問題に対処するために、周波数領域で共振器の低ランク+量子化近似を行う新しい効率なLMMであるLLaVA-FAを提案する。
フーリエ変換のデコリレーションと共役対称性を利用して、LLaVA-FAはよりコンパクトで正確な重み表現を実現する。
さらに、複素行列に適した極座標量子化法であるPolarQuantと、大規模キャリブレーションデータを必要としないオプションの対角線キャリブレーション(ODC)方式を導入する。
実験の結果,LLaVA-FAは,LMMを圧縮する強力な解法として,最小の活性化パラメータと低計算コストを維持しながら,複数のベンチマークにおいて既存の効率的なマルチモーダルモデルよりも優れていた。
関連論文リスト
- Beyond Real Weights: Hypercomplex Representations for Stable Quantization [6.708338010963415]
マルチモーダル言語モデル(MLLM)は、高次元視覚特徴を言語表現と整合させるために、大きなパラメータ容量を必要とする。
本稿では,高密度フィードフォワードネットワークブロックを徐々に置き換えることで,これらのモデルを圧縮するプログレッシブリパラメタライゼーション戦略を提案する。
残留スケジュールは、軽量な再構築と知識蒸留の損失と共に、PHMモジュールが訓練中に高密度なモジュールの機能的挙動を継承することを保証する。
論文 参考訳(メタデータ) (2025-12-09T12:10:57Z) - SingleQuant: Efficient Quantization of Large Language Models in a Single Pass [17.504732263852876]
量子化切り離しを分離する単一パス量子化フレームワークであるSingleQuantを提案する。
具体的には、SingleQuantはアクティベーションアウトリアをターゲットとしたアライメント回転変換(ART)と統一回転変換(URT)を構築している。
実験の結果、SingleQuantは様々なタスクにまたがる選択されたベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-11-27T10:46:39Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。