論文の概要: Trainable Bitwise Soft Quantization for Input Feature Compression
- arxiv url: http://arxiv.org/abs/2603.05172v1
- Date: Thu, 05 Mar 2026 13:40:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.251255
- Title: Trainable Bitwise Soft Quantization for Input Feature Compression
- Title(参考訳): 入力特徴圧縮のための学習可能なビットワイド量子化
- Authors: Karsten Schrödter, Jan Stenkamp, Nina Herrmann, Fabian Gieseke,
- Abstract要約: 本稿では,ニューラルネットワークの入力特徴を圧縮するタスク固有で訓練可能な特徴量化層を提案する。
これにより、デバイスからリモートサーバに転送される必要のあるデータの量を大幅に削減できる。
- 参考スコア(独自算出の注目度): 0.7559720049837458
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The growing demand for machine learning applications in the context of the Internet of Things calls for new approaches to optimize the use of limited compute and memory resources. Despite significant progress that has been made w.r.t. reducing model sizes and improving efficiency, many applications still require remote servers to provide the required resources. However, such approaches rely on transmitting data from edge devices to remote servers, which may not always be feasible due to bandwidth, latency, or energy constraints. We propose a task-specific, trainable feature quantization layer that compresses the input features of a neural network. This can significantly reduce the amount of data that needs to be transferred from the device to a remote server. In particular, the layer allows each input feature to be quantized to a user-defined number of bits, enabling a simple on-device compression at the time of data collection. The layer is designed to approximate step functions with sigmoids, enabling trainable quantization thresholds. By concatenating outputs from multiple sigmoids, introduced as bitwise soft quantization, it achieves trainable quantized values when integrated with a neural network. We compare our method to full-precision inference as well as to several quantization baselines. Experiments show that our approach outperforms standard quantization methods, while maintaining accuracy levels close to those of full-precision models. In particular, depending on the dataset, compression factors of $5\times$ to $16\times$ can be achieved compared to $32$-bit input without significant performance loss.
- Abstract(参考訳): モノのインターネット(Internet of Things)のコンテキストにおける機械学習アプリケーションの需要が高まっているため、限られた計算リソースとメモリリソースの使用を最適化するための新しいアプローチが求められている。
モデルサイズを削減し、効率を向上するなど、大幅に進歩したにもかかわらず、多くのアプリケーションは、必要なリソースを提供するためにリモートサーバを必要とする。
しかし、このようなアプローチはエッジデバイスからリモートサーバへのデータ転送に依存しているため、帯域幅、レイテンシ、エネルギー制約のため、必ずしも実現不可能であるとは限らない。
本稿では,ニューラルネットワークの入力特徴を圧縮するタスク固有で訓練可能な特徴量化層を提案する。
これにより、デバイスからリモートサーバに転送される必要のあるデータの量を大幅に削減できる。
特に、このレイヤでは、各入力機能をユーザ定義のビット数に量子化することができ、データ収集時にデバイス上のシンプルな圧縮を可能にする。
この層は、ステップ関数をシグモイドと近似し、トレーニング可能な量子化しきい値を可能にするように設計されている。
ビットワイドな量子化として導入された複数のシグモイドからの出力を結合することにより、ニューラルネットワークと統合された場合、トレーニング可能な量子化値を達成する。
我々は,本手法を完全精度推論および数種類の量子化基底線と比較した。
実験により,本手法は完全精度モデルに近い精度を維持しつつ,標準的な量子化法よりも優れていることが示された。
特にデータセットによっては、$5\times$から$16\times$の圧縮係数は、パフォーマンスを著しく損なうことなく、32$-bit入力と比較して達成できる。
関連論文リスト
- Learning Grouped Lattice Vector Quantizers for Low-Bit LLM Compression [57.54335545892155]
本稿では,各重みの群に独自の格子コードブックを割り当てるGLVQ(Grouped Lattice Vector Quantization)フレームワークを紹介する。
提案手法は,既存のトレーニング後の量子化ベースラインと比較して,モデルサイズと精度のトレードオフが良好である。
論文 参考訳(メタデータ) (2025-10-23T20:19:48Z) - An Efficient Quantum Classifier Based on Hamiltonian Representations [50.467930253994155]
量子機械学習(QML)は、量子コンピューティングの利点をデータ駆動タスクに移行しようとする分野である。
入力をパウリ弦の有限集合にマッピングすることで、データ符号化に伴うコストを回避できる効率的な手法を提案する。
我々は、古典的および量子モデルに対して、テキストおよび画像分類タスクに対する我々のアプローチを評価する。
論文 参考訳(メタデータ) (2025-04-13T11:49:53Z) - Quantization without Tears [26.5790668319932]
QwT(Quantization without Tears)は、量子化速度、精度、単純さ、一般化性を同時に達成する手法である。
QwTは、量子化中の情報損失を軽減するために、軽量な追加構造を量子化ネットワークに組み込む。
様々な視覚、言語、マルチモーダルタスクにわたる広範囲な実験は、QwTが高効率かつ多目的であることを示した。
論文 参考訳(メタデータ) (2024-11-21T08:13:24Z) - Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Scaled Quantization for the Vision Transformer [0.0]
少数のビットを使用した量子化は、ディープニューラルネットワークにおけるレイテンシとメモリ使用量の削減を約束している。
本稿では、中間浮動小数点演算を必要とせずに、視覚変換器ネットワークの完全整数量子化のためのロバストな手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T18:31:21Z) - A Practical Mixed Precision Algorithm for Post-Training Quantization [15.391257986051249]
混合精度量子化は、均一な量子化よりも優れた性能効率トレードオフを見つけるための有望な解である。
簡単な学習後混合精度アルゴリズムを提案する。
我々は,同質のビット幅等価値よりも精度と効率のトレードオフが良い混合精度ネットワークを見つけることができることを示す。
論文 参考訳(メタデータ) (2023-02-10T17:47:54Z) - OMPQ: Orthogonal Mixed Precision Quantization [72.63889596498004]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - A White Paper on Neural Network Quantization [20.542729144379223]
本稿では,量子化ノイズがネットワークの性能に与える影響を緩和する最新アルゴリズムを提案する。
我々は,ポストトレーニング量子化(PTQ)と量子化アウェア・トレーニング(QAT)の2つのアルゴリズムについて考察する。
論文 参考訳(メタデータ) (2021-06-15T17:12:42Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。