論文の概要: TTQ: Activation-Aware Test-Time Quantization to Accelerate LLM Inference On The Fly
- arxiv url: http://arxiv.org/abs/2603.19296v1
- Date: Wed, 11 Mar 2026 02:08:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.86206
- Title: TTQ: Activation-Aware Test-Time Quantization to Accelerate LLM Inference On The Fly
- Title(参考訳): TTQ: LLM推論を加速するアクティベーション対応テスト時間量子化
- Authors: Toshiaki Koike-Akino, Jing Liu, Ye Wang,
- Abstract要約: 本稿では,この問題を解決するために,推定時間帯で大規模モデルを高速に圧縮するテスト時間量子化フレームワークを提案する。
効率的なオンラインキャリブレーションにより、インスタントアクティベーション対応の量子化は、下流のタスクに関係なく全てのプロンプトを適応できるが、推論のスピードアップは達成できる。
- 参考スコア(独自算出の注目度): 20.603753314256704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To tackle the huge computational demand of large foundation models, activation-aware compression techniques without retraining have been introduced. However, since these methods highly rely on calibration data, domain shift issues may arise for unseen downstream tasks. We propose a test-time quantization (TTQ) framework which compresses large models on the fly at inference time to resolve this issue. With an efficient online calibration, instant activation-aware quantization can adapt every prompt regardless of the downstream tasks, yet achieving inference speedup. Several experiments demonstrate that TTQ can improve the quantization performance over state-of-the-art baselines.
- Abstract(参考訳): 大規模基盤モデルの膨大な計算需要に対応するため, 再学習を伴わないアクティベーション対応圧縮技術が導入された。
しかし、これらの手法は校正データに強く依存しているため、下流のタスクではドメインシフトの問題が発生する可能性がある。
本稿では,この問題を解決するために,推定時間帯で大規模モデルを高速に圧縮するテスト時間量子化(TTQ)フレームワークを提案する。
効率的なオンラインキャリブレーションにより、インスタントアクティベーション対応の量子化は、下流のタスクに関係なく全てのプロンプトを適応できるが、推論のスピードアップは達成できる。
いくつかの実験により、TTQは最先端のベースラインよりも量子化性能を向上できることが示された。
関連論文リスト
- AdaTSQ: Pushing the Pareto Frontier of Diffusion Transformers via Temporal-Sensitivity Quantization [22.45250803905198]
拡散変換器(DiT)は、高忠実度画像とビデオ生成のための最先端のバックボーンとして登場した。
後学習量子化(PTQ)は、大規模言語モデル(LLM)に有効であることが証明された。
本稿では,DiTの時間感度を利用して効率と品質のフロンティアを推し進める新しいPTQフレームワークであるAdaTSQを提案する。
論文 参考訳(メタデータ) (2026-02-10T15:23:18Z) - Enhancing Post-Training Quantization via Future Activation Awareness [84.76726857601753]
ポストトレーニング量子化(PTQ)は、大規模言語モデル(LLM)を微調整なしで圧縮する方法として広く用いられている。
本稿では、将来の層活性化を利用して量子化を導出するFuture-Aware Quantization (FAQ)を提案する。
FAQは、後方パス、データ再構成、チューニングを必要とせず、無視できる余分なコストで、従来手法よりも一貫してパフォーマンスを向上する。
論文 参考訳(メタデータ) (2026-01-28T12:03:30Z) - What Makes Low-Bit Quantization-Aware Training Work for Reasoning LLMs? A Systematic Study [59.44848132298657]
ポストトレーニング量子化(PTQ)は通常、特に低ビット設定でのタスクの推論において、大きな精度低下のコストが伴う。
本研究では,推論モデルに対する量子化認識学習(QAT)の体系的研究について述べる。
論文 参考訳(メタデータ) (2026-01-21T11:22:29Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - TTAQ: Towards Stable Post-training Quantization in Continuous Domain Adaptation [3.7024647541541014]
トレーニング後の量子化(PTQ)は、完全な精度のモデルを小さなキャリブレーションセット上で低ビット表現に量子化することで、ハードウェアの過大なコストを削減する。
従来のPTQメソッドは、動的で絶え間なく変化する現実世界のシナリオで失敗することが多い。
本稿では、従来のPTQの性能劣化に対処するため、TTAQと呼ばれるテスト時間適応のための新しい安定な量子化プロセスを提案する。
論文 参考訳(メタデータ) (2024-12-13T06:34:59Z) - TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。
本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。
先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文 参考訳(メタデータ) (2023-11-27T12:59:52Z) - EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models [21.17675493267517]
ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。
我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。
提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-10-05T02:51:53Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。