論文の概要: FreeAct: Freeing Activations for LLM Quantization
- arxiv url: http://arxiv.org/abs/2603.01776v2
- Date: Thu, 05 Mar 2026 01:02:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 15:25:24.169991
- Title: FreeAct: Freeing Activations for LLM Quantization
- Title(参考訳): FreeAct: LLM量子化のためのフリー化
- Authors: Xiaohao Liu, Xiaobo Xia, Manyi Zhang, Ji-Fu Li, Xianzhi Yu, Fei Shen, Xiu Su, See-Kiong Ng, Tat-Seng Chua,
- Abstract要約: 量子化は、大規模言語モデルの重要なメモリと計算オーバーヘッドを軽減するために重要である。
FreeActは静的な1対1の制約を緩和し、動的アクティベーションの格差を緩和する新しい量子化フレームワークである。
dLLMとMLLMでの実験では、FreeActはベースラインを大幅に上回り、パフォーマンスは最大5.3%向上した。
- 参考スコア(独自算出の注目度): 89.97086263978058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization is pivotal for mitigating the significant memory and computational overhead of Large Language Models (LLMs). While emerging transformation-based methods have successfully enhanced quantization by projecting feature spaces onto smoother manifolds using orthogonal matrices, they typically enforce a rigid one-to-one transformation constraint. This static approach fails to account for the dynamic patterns inherent in input activations, particularly within diffusion LLMs (dLLMs) and Multimodal LLMs (MLLMs), where varying token types exhibit distinct distributions. To advance this, we propose FreeAct, a novel quantization framework that relaxes the static one-to-one constraint to accommodate dynamic activation disparities. Theoretically, we leverage the rank-deficient nature of activations to derive a solution space that extends beyond simple inverse matrices, enabling the decoupling of activation transformations from weights. Methodologically, FreeAct identifies token-specific dynamics (i.e., vision v.s. text, or masked tokens) and allocates distinct transformation matrices to the activation side, while maintaining a unified, static transformation for the weights. Extensive experiments across dLLMs and MLLMs demonstrate that FreeAct significantly outperforms baselines, up to 5.3% performance improvement, with in-depth analyses. Our code will be publicly released.
- Abstract(参考訳): 量子化は、Large Language Models (LLM) の重要なメモリと計算オーバーヘッドを軽減するために重要である。
出現する変換に基づく手法は、直交行列を用いたより滑らかな多様体に特徴空間を射影することで量子化を成功させたが、それらは典型的には厳密な1対1変換の制約を強制する。
この静的なアプローチでは、特に拡散LDM(dLLM)やMLLM(Multimodal LLM)において、入力アクティベーションに固有の動的パターンを考慮できない。
これを進めるために,静的な1対1制約を緩和し,動的アクティベーションの相違を緩和する新しい量子化フレームワークFreeActを提案する。
理論的には、アクティベーションのランク不足の性質を利用して、単純な逆行列を超えた解空間を導出し、重みからアクティベーション変換の分離を可能にする。
方法論的には、FreeActはトークン固有のダイナミクス(ビジョン対テキスト、マスク付きトークンなど)を特定し、ウェイトに対して統一された静的な変換を維持しながら、アクティベーション側に異なる変換行列を割り当てる。
dLLMとMLLMの広範な実験により、FreeActはベースラインを大幅に上回り、パフォーマンスは最大5.3%向上し、詳細な分析が行われた。
私たちのコードは公開されます。
関連論文リスト
- GeoMotionGPT: Geometry-Aligned Motion Understanding with Large Language Models [23.159388800893964]
両モジュラリティが統一幾何基底を共有する場合、アライメントが最も効果的であると主張する。
我々は、Gumbel-Softmaxを用いたデコーダのみの量子化器を用いて、微分可能なトレーニングとバランスの取れたコードブックの使用について検討する。
我々のフレームワークは現在の最先端手法よりも20%の性能向上を実現している。
論文 参考訳(メタデータ) (2026-01-12T15:14:29Z) - STaMP: Sequence Transformation and Mixed Precision for Low-Precision Activation Quantization [21.93314755695813]
量子化は、生成AIモデルの推論レイテンシ、電力、メモリフットプリントを低減するための重要な方法である。
テキストシーケンス変換と混合精度(STaMP)量子化を提案する。
論文 参考訳(メタデータ) (2025-10-30T17:53:42Z) - Meaningless Tokens, Meaningful Gains: How Activation Shifts Enhance LLM Reasoning [53.35553353785948]
問合せプロンプトの前に無意味なトークンの長いシーケンスを挿入することで、LCM性能の推論を継続的に強化できるというファズリング観測により、本研究は、この現象を駆動する基盤となるメカニズムを解析する。
その結果,LLM層における活性化の再分配により,大きな活性化が増大するにつれて,ほぼゼロに近い活性化頻度が低下することが判明した。
本稿では,入力シーケンスを変更することなく,アクティベーションを直接修正する軽量な推論時間手法を提案する。
論文 参考訳(メタデータ) (2025-10-01T15:39:38Z) - MotionVerse: A Unified Multimodal Framework for Motion Comprehension, Generation and Editing [53.98607267063729]
MotionVerseは、シングルパーソンとマルチパーソンの両方のシナリオで人間の動作を理解し、生成し、編集するフレームワークである。
我々は、連続的な動き列をマルチストリーム離散トークンに変換する残差量子化を伴う動きトークン化器を用いる。
また、残留トークンストリームの符号化を時間的に停滞させる textitDelay Parallel Modeling 戦略も導入する。
論文 参考訳(メタデータ) (2025-09-28T04:20:56Z) - Large Language Model Compression via the Nested Activation-Aware Decomposition [12.400791399764213]
我々は,大規模言語モデル(LLM)の低ランク分解に着目した,新しい訓練後圧縮パラダイムを導入する。
低ランク分解の精度を高めるために,LLMのためのネスト型アクティベーション・アウェア・フレームワーク(NSVD)を提案する。
論文 参考訳(メタデータ) (2025-03-21T12:39:16Z) - Transformer-Squared: Self-adaptive LLMs [29.1326358746118]
そこで我々はTransformer-Squaredという新しい自己適応フレームワークを紹介した。
提案手法は,LoRAなどのユビキタスな手法よりもパラメータが少なく,効率も向上する。
Transformer-Squaredは、LLMの適応性とタスク固有のパフォーマンスを向上させる、スケーラブルで効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-01-09T01:19:21Z) - Analyzing Finetuning Representation Shift for Multimodal LLMs Steering [56.710375516257876]
隠れた状態を解釈可能な視覚的概念とテキスト的概念にマッピングすることを提案する。
これにより、オリジナルモデルや微調整モデルからのシフトなど、特定のセマンティックダイナミクスをより効率的に比較することが可能になります。
また,これらの変化を捉えるためにシフトベクトルを用いることを実証する。
論文 参考訳(メタデータ) (2025-01-06T13:37:13Z) - Data-free Weight Compress and Denoise for Large Language Models [96.68582094536032]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - ASVD: Activation-aware Singular Value Decomposition for Compressing Large Language Models [49.970828419830355]
大規模言語モデル(LLM)のための新しい訓練後圧縮パラダイムを提案する。
我々は、アクティベーション対応特異値分解(ASVD)と呼ばれるトレーニング不要の手法を提案する。
論文 参考訳(メタデータ) (2023-12-10T08:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。