論文の概要: Quant-Trim in Practice: Improved Cross-Platform Low-Bit Deployment on Edge NPUs
- arxiv url: http://arxiv.org/abs/2511.15300v1
- Date: Wed, 19 Nov 2025 10:09:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.747121
- Title: Quant-Trim in Practice: Improved Cross-Platform Low-Bit Deployment on Edge NPUs
- Title(参考訳): 量子トリップの実践:エッジNPUにおけるクロスプラットフォーム低ビット展開の改善
- Authors: Rayen Dhahri, Steffen Urban,
- Abstract要約: 特別なエッジアクセラレータは低ビット量子化に依存しているが、ベンダーコンパイラはスケーリング、クリップング、カーネルサポートが異なる。
同じ浮動小数点(FP)チェックポイントは、バックエンド間で一貫性のない精度が得られるため、実践者はフラグやモデルをベンダーフレンドリーなオペレーターサブセットに調整せざるを得ない。
我々は,バックエンドと精度の選択に対してハードウェア中立チェックポイントを生成するトレーニングフェーズであるQuant-Trimを紹介する。
- 参考スコア(独自算出の注目度): 0.6138671548064355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Specialized edge accelerators rely on low-bit quantization, but vendor compilers differ in scaling, clipping, and kernel support, often as black boxes. The same floating-point (FP) checkpoint can therefore yield inconsistent accuracy across backends, forcing practitioners to tweak flags or refactor models to vendor-friendly operator subsets. We introduce Quant-Trim, a training-phase method that produces a hardware-neutral checkpoint robust to backend and precision choices. It combines progressive fake quantization to align training with the deployed integer grid and reverse pruning to tame outlier-driven scale inflation while preserving learnability. Quant-Trim is agnostic to quantization schemes (symmetric/asymmetric,per-tensor/per-channel, INT8/INT4) and requires no vendor-specific graph changes.Across models and tasks, it narrows the FP,low-bit gap, reduces dependence on compiler heuristics/calibration, and avoids per-backend retraining. We report accuracy and edge metrics latency, throughput, energy/inference, and cost under static/dynamic activation scaling and varying operator coverage.
- Abstract(参考訳): 特別なエッジアクセラレータは低ビット量子化に依存しているが、ベンダーコンパイラはスケーリング、クリップング、カーネルサポートが異なる。
したがって、同じ浮動小数点(FP)チェックポイントはバックエンド間で一貫性のない精度が得られるため、実践者はフラグを調整したり、モデルをベンダーフレンドリーなオペレーターサブセットにリファクタせざるを得なくなる。
我々は,バックエンドと精度の選択に頑健なハードウェアニュートラルチェックポイントを生成するトレーニングフェーズであるQuant-Trimを紹介する。
プログレッシブなフェイク量子化を組み合わせて、トレーニングをデプロイされた整数グリッドと整合させ、学習性を維持しながら、テームアウトリア駆動のスケールインフレーションに逆プルーニングする。
Quant-Trimは量子化スキーム(symmetric/asymmetric,per-tensor/per-channel, INT8/INT4)に非依存であり、ベンダー固有のグラフ変更を必要としない。
静的/動的アクティベーションスケーリングと各種演算子カバレッジにおいて,精度とエッジメトリクスのレイテンシ,スループット,エネルギ/推論,コストを報告する。
関連論文リスト
- Learning Grouped Lattice Vector Quantizers for Low-Bit LLM Compression [57.54335545892155]
本稿では,各重みの群に独自の格子コードブックを割り当てるGLVQ(Grouped Lattice Vector Quantization)フレームワークを紹介する。
提案手法は,既存のトレーニング後の量子化ベースラインと比較して,モデルサイズと精度のトレードオフが良好である。
論文 参考訳(メタデータ) (2025-10-23T20:19:48Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Quantized Visual Geometry Grounded Transformer [67.15451442018258]
本稿では,VGGTの最初の量子化フレームワーク,すなわちQuantVGGTを提案する。
球状前アダマール回転と局所流路平滑化を統合したDual-Smoothed Fine-Grained Quantizationを導入する。
また、重層統計量を用いて外周をフィルタするノイズフィルタディバースサンプリングを設計する。
論文 参考訳(メタデータ) (2025-09-25T15:17:11Z) - TruncQuant: Truncation-Ready Quantization for DNNs with Flexible Weight Bit Precision [8.532216260938478]
トランケーションは、低ビット精度マッピングを実現するための効果的なアプローチである。
現在の量子化対応トレーニングスキームは、トランケーションプロセスのために設計されていない。
そこで我々はTruncQuantを提案する。TruncQuantは、実行時のビットシフトによるフレキシブルビット精度を実現する新しいトランケーション対応トレーニングスキームである。
論文 参考訳(メタデータ) (2025-06-13T03:08:18Z) - Quaff: Quantized Parameter-Efficient Fine-Tuning under Outlier Spatial Stability Hypothesis [9.884521812433661]
Quaffは、大規模言語モデルのための量子化されたパラメータ効率の微調整フレームワークである。
軽量な操作を使用して、排他的な不変チャネルを抑える。
1.73倍のレイテンシ削減を実現し、30パーセントのメモリ節約を実現している。
論文 参考訳(メタデータ) (2025-05-20T07:19:36Z) - QCore: Data-Efficient, On-Device Continual Calibration for Quantized Models -- Extended Version [34.280197473547226]
機械学習モデルは、ストレージと計算能力に制限のあるエッジデバイスにデプロイすることができる。
エッジ上で連続的なキャリブレーションを可能にするためのQCoreを提案する。
論文 参考訳(メタデータ) (2024-04-22T08:57:46Z) - Trainable Fixed-Point Quantization for Deep Learning Acceleration on
FPGAs [30.325651150798915]
量子化は、組み込みFPGAのようなリソース制約のあるデバイスにディープラーニングモデルをデプロイするための重要な技術である。
モデルトレーニング中の二点位置を自動的に学習する,トレーニング可能な固定点量子化手法であるQFXを提案する。
QFXはPyTorchベースのライブラリとして実装され、FPGA HLSでサポートされている固定点演算を効率的にエミュレートする。
論文 参考訳(メタデータ) (2024-01-31T02:18:27Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。