論文の概要: You Had One Job: Per-Task Quantization Using LLMs' Hidden Representations
- arxiv url: http://arxiv.org/abs/2511.06516v1
- Date: Sun, 09 Nov 2025 19:58:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.986719
- Title: You Had One Job: Per-Task Quantization Using LLMs' Hidden Representations
- Title(参考訳): ひとつの仕事: LLMの隠れ表現を用いたタスクごとの量子化
- Authors: Amit LeVi, Raz Lapid, Rom Himelstein, Yaniv Nemcovsky, Ravid Shwartz Ziv, Avi Mendelson,
- Abstract要約: 本稿では,タスクサレント信号を量子化のガイドラインとして符号化する隠れ表現を提案する。
本稿では,タスク条件付き統計量を用いてビット幅を割り当てるタスク・アウェア・量子化(TAQ)と,直接層感度テストに基づいて精度を割り当てるTAQOの2つの新しいタスク・アウェア・PTQ手法を比較した。
TAQはPhi-4、TAQOはLlama-3.1、Qwen3、Qwen2.5である。
- 参考スコア(独自算出の注目度): 7.404908118728373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) excel across diverse tasks, yet many applications require only limited capabilities, making large variants inefficient in memory and latency. Existing approaches often combine distillation and quantization, but most post-training quantization (PTQ) methods are task-agnostic, ignoring how task-specific signals are distributed across layers. In this work, we propose to use hidden representations that encode task-salient signals as a guideline for quantization. In order to fully utilize our innovative idea, this paper compares two new task-aware PTQ methods: Task-Aware Quantization (TAQ), which allocates bitwidths using task-conditioned statistics from hidden activations, and TAQO, which allocates precision based on direct layer sensitivity tests. From a small calibration set, these approaches identify task-relevant layers, preserving their precision while aggressively quantizing the rest. This yields stable task sensitivity profiles and efficient task-specialized models. Across models, TAQ and TAQO outperform the baselines; TAQ leads on Phi-4, while TAQO leads on Llama-3.1, Qwen3, and Qwen2.5. For instances, on Phi-4 it achieves 42.33 EM / 50.81 F1, far surpassing Activation-aware Weight Quantization (AWQ) (2.25 / 7.07), while remaining within < 1.0% of the original accuracy at lower average precision.
- Abstract(参考訳): 大きな言語モデル(LLM)は様々なタスクにまたがって優れていますが、多くのアプリケーションは限られた機能しか必要とせず、大きな変種はメモリとレイテンシで非効率になります。
既存の手法は蒸留と量子化を組み合わせていることが多いが、ほとんどのポストトレーニング量子化(PTQ)手法はタスクに依存しない。
本研究では,タスク・サレント信号を量子化のガイドラインとして符号化する隠れ表現を提案する。
本稿では,我々の革新的なアイデアを十分に活用するために,タスク認識量子化(TAQ)と,直接層感度テストに基づいて精度を割り当てるTAQOという2つの新しいタスク認識PTQ手法を比較した。
小さなキャリブレーションセットから、これらの手法はタスク関連層を特定し、残りの層を積極的に定量化しながら精度を保っている。
これにより、安定したタスク感度プロファイルと効率的なタスク特化モデルが得られる。
TAQはPhi-4、TAQOはLlama-3.1、Qwen3、Qwen2.5である。
例えば、Phi-4では42.33 EM / 50.81 F1を達成し、アクティベーション対応重み量子化 (AWQ) (2.25 / 7.07) をはるかに上回っている。
関連論文リスト
- How Many Parameters Does Your Task Really Need? Task Specific Pruning with LLM-Sieve [2.33361323991006]
大きな言語モデル(LLM)は、リソース制約された設定において、狭いタスクのためにますますデプロイされる。
LLM-Sieveは,タスク性能の維持に必要な最小パラメータサブセットにLCMを適用可能なフレームワークである。
論文 参考訳(メタデータ) (2025-05-23T20:17:20Z) - Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression [55.323397702682506]
後トレーニング量子化(PTQ)は、コストのかかる再トレーニングなしに全精度重みを低ビット重みにマッピングすることで、モデルのメモリフットプリントを削減する。
我々は,自動回路発見に並列性を持つ新しい混合精度PTQ手法であるTask-Circuit Quantization (TaCQ)を開発した。
論文 参考訳(メタデータ) (2025-04-10T02:19:03Z) - RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。
モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。
RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2025-03-03T18:46:33Z) - Localizing Task Information for Improved Model Merging and Compression [61.16012721460561]
我々は,各タスクの重み付けが重なり合わないことが多いため,各タスクがマージされた後も,各タスクの解決に必要な情報が保存されていることを示す。
本稿では,そのような重みを排除し,既存のモデルマージ手法の一般的な性能を改善するアルゴリズムであるConsensus Mergingを提案する。
論文 参考訳(メタデータ) (2024-05-13T14:54:37Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Meta-Generating Deep Attentive Metric for Few-shot Classification [53.07108067253006]
本稿では,新しい数ショット学習タスクのための特定のメトリックを生成するための,新しい深度メタジェネレーション手法を提案する。
本研究では,各タスクの識別基準を生成するのに十分なフレキシブルな3層深い注意ネットワークを用いて,メトリクスを構造化する。
特に挑戦的なケースでは、最先端の競合他社よりも驚くほどパフォーマンスが向上しています。
論文 参考訳(メタデータ) (2020-12-03T02:07:43Z) - Conditional Channel Gated Networks for Task-Aware Continual Learning [44.894710899300435]
畳み込みニューラルネットワークは、一連の学習問題に最適化された場合、破滅的な忘れを経験する。
本稿では,この問題に条件付き計算で対処する新しい枠組みを提案する。
提案手法を4つの連続学習データセットで検証する。
論文 参考訳(メタデータ) (2020-03-31T19:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。