論文の概要: LPCD: Unified Framework from Layer-Wise to Submodule Quantization
- arxiv url: http://arxiv.org/abs/2512.01546v1
- Date: Mon, 01 Dec 2025 11:21:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.818282
- Title: LPCD: Unified Framework from Layer-Wise to Submodule Quantization
- Title(参考訳): LPCD:レイヤワイズからサブモジュール量子化への統一フレームワーク
- Authors: Yuma Ichikawa, Yudai Fujimoto, Akira Sakai,
- Abstract要約: ポストトレーニング量子化(PTQ)は、モデルレベルの挙動を維持することを目的としている。
我々は,層を超えてPTQを拡張する統一フレームワークであるLayer-Projected Coordinate Descent (LPCD)を紹介した。
- 参考スコア(独自算出の注目度): 6.30853901017231
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Post-training quantization (PTQ) aims to preserve model-level behavior; however, most methods focus on individual linear layers. Even recent extensions, such as QEP and LoaQ, which mitigate error propagation or target specific submodules, still rely on layer-wise formulations and fail to capture the behavior of larger submodules. We introduce Layer-Projected Coordinate Descent (LPCD), a unified framework that extends PTQ beyond layers by optimizing relaxed objectives across arbitrary submodules and projecting the solutions with layer-wise quantizers. LPCD generalizes existing methods and provides a principled approach to quantizing complex submodules while maintaining the efficiency and compatibility of layer-wise PTQ pipelines. Across diverse LLM architectures and bit-widths, LPCD-based submodule quantization consistently enhances both layer-wise PTQ methods and existing submodule approaches.
- Abstract(参考訳): ポストトレーニング量子化(PTQ)はモデルレベルの挙動を維持することを目的としているが、ほとんどの手法は個々の線形層に焦点を当てている。
QEPやLoaQのような最近の拡張でさえ、エラーの伝搬を緩和したり特定のサブモジュールをターゲットにしているが、それでもレイヤワイドな定式化に依存しており、より大きなサブモジュールの振る舞いを捉えていない。
我々は、任意のサブモジュール間で緩和対象を最適化し、層ワイド量子化器で解を投影することにより、PTQを層を超えて拡張する統一フレームワークであるLayer-Projected Coordinate Descent (LPCD)を紹介した。
LPCDは既存の手法を一般化し、レイヤーワイズPTQパイプラインの効率性と互換性を維持しつつ、複雑なサブモジュールを定量化する原理的なアプローチを提供する。
多様なLCMアーキテクチャとビット幅をまたいだLPCDベースのサブモジュール量子化は、レイヤワイズPTQ法と既存のサブモジュールアプローチの両方を一貫して強化する。
関連論文リスト
- Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [48.15777554876988]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。
本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。
本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T08:53:02Z) - Multi-Layer Hierarchical Federated Learning with Quantization [12.31724446119113]
階層型階層型学習フレームワーク(QMLHFL)を提案する。
QMLHFLは階層FLをネスト集約により任意の数の層とネットワークアーキテクチャに一般化する。
この結果から,QMLHFLは高いデータ不均一性の下でも,常に高い学習精度を達成できることが示唆された。
論文 参考訳(メタデータ) (2025-05-13T00:47:13Z) - Quantization Error Propagation: Revisiting Layer-Wise Post-Training Quantization [0.0]
層ワイドPTQは大規模言語モデル(LLM)を圧縮するための有望な手法である
この領域の最近の進歩は飽和しており、中核的な制限を再検討し、さらなる改善を検討する必要性を浮き彫りにしている。
本稿では,量子化エラーを明示的に伝播し,蓄積したエラーを補償することにより,レイヤワイズPTQを向上させる,汎用的で軽量でスケーラブルなフレームワークである量子化エラー伝播(QEP)を提案する。
論文 参考訳(メタデータ) (2025-04-13T15:56:00Z) - LSAQ: Layer-Specific Adaptive Quantization for Large Language Model Deployment [12.80921403367322]
大規模言語モデル(LLM)は、様々な領域で例外的なパフォーマンスを示す。
LLMのサイズとメモリ要件を削減した量子化技術は、リソース制限されたエッジデバイスにLLMをデプロイするのに有効である。
適応量子化システムLSAQ(Layer-Specific Adaptive Quantization)を提案する。
論文 参考訳(メタデータ) (2024-12-24T03:43:15Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - BoA: Attention-aware Post-training Quantization without Backpropagation [11.096116957844014]
トレーニング後の量子化は、リソース制約のあるデバイスに大規模言語モデルをデプロイするための有望なソリューションである。
層間依存関係を考慮し、量子化重みを最適化する新しいバックプロパゲーションフリーPTQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-19T11:53:21Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。