論文の概要: Quantamination: Dynamic Quantization Leaks Your Data Across the Batch
- arxiv url: http://arxiv.org/abs/2604.26505v1
- Date: Wed, 29 Apr 2026 10:10:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.351462
- Title: Quantamination: Dynamic Quantization Leaks Your Data Across the Batch
- Title(参考訳): 量子化: 動的量子化はバッチ中にデータをリークする
- Authors: Hanna Foerster, Ilia Shumailov, Cheng Zhang, Yiren Zhao, Jamie Hayes, Robert Mullins,
- Abstract要約: 相手は動的量子化を利用して、相手の入力と同じバッチに配置された機密性の高いユーザデータを盗むことができる。
現在使用されている最も人気のあるMLフレームワークのうち、少なくとも4つは、デフォルトで、またはバッチ境界を越えてデータをリークする設定を使用できることを示している。
- 参考スコア(独自算出の注目度): 31.015876575311026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic quantization emerged as a practical approach to increase the utilization and efficiency of the machine learning serving flow. Unlike static quantization, which applies quantization offline, dynamic quantization operates on tensors at run-time, adapting its parameters to the actual input data. Today's mainstream machine learning frameworks, including ML compilers and inference engines, frequently recommend dynamic quantization as an initial step for optimizing model serving. This is because dynamic quantization can significantly reduce memory usage and computational load, leading to faster token generation and improved model serving efficiency without substantial loss in model accuracy. In this paper, we reveal a critical vulnerability in dynamic quantization: an adversary can exploit such quantization strategy to steal sensitive user data placed in the same batch as the adversary's input. Our analysis demonstrates that dynamic quantization, when improperly implemented or configured, can create side channels that expose information about other inputs within the same batch. We call this phenomenon Quantamination, describing contamination from quantization. Specifically, we show that at least 4 of the most popular ML frameworks in use today either default to or can use configurations that leak data across the batch boundary. This data leakage, in theory, allows attackers to partially or even fully recover other users' batched input data, representing a serious privacy risk for existing ML serving frameworks.
- Abstract(参考訳): 動的量子化は、機械学習サービスフローの利用と効率を高めるための実践的なアプローチとして登場した。
量子化をオフラインで行う静的量子化とは異なり、動的量子化は実行時にテンソル上で動作し、パラメータを実際の入力データに適応させる。
MLコンパイラや推論エンジンを含む今日の主流の機械学習フレームワークは、モデル提供を最適化するための最初のステップとして、動的量子化を推奨することが多い。
これは、動的量子化がメモリ使用量と計算負荷を大幅に削減し、より高速なトークン生成とモデル提供効率の向上につながるためである。
本稿では,動的量子化の重大な脆弱性を明らかにする。敵はこのような量子化戦略を利用して,相手の入力と同じバッチに配置された機密性の高いユーザデータを盗むことができる。
我々の分析は、動的量子化が不適切に実装または構成された場合、同じバッチ内で他の入力に関する情報を公開するサイドチャネルを作成することができることを示した。
我々はこの現象を量子化(Quantamination)と呼び、量子化による汚染を記述する。
具体的には、現在使用されている最も人気のあるMLフレームワークのうち、少なくとも4つがデフォルトで使用しているか、バッチ境界を越えてデータをリークする設定を使用できることを示す。
このデータ漏洩は、理論的には、攻撃者が他のユーザのバッチ入力データを部分的にあるいは完全に復元することを可能にする。
関連論文リスト
- Enhancing Post-Training Quantization via Future Activation Awareness [84.76726857601753]
ポストトレーニング量子化(PTQ)は、大規模言語モデル(LLM)を微調整なしで圧縮する方法として広く用いられている。
本稿では、将来の層活性化を利用して量子化を導出するFuture-Aware Quantization (FAQ)を提案する。
FAQは、後方パス、データ再構成、チューニングを必要とせず、無視できる余分なコストで、従来手法よりも一貫してパフォーマンスを向上する。
論文 参考訳(メタデータ) (2026-01-28T12:03:30Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - QuantAttack: Exploiting Dynamic Quantization to Attack Vision Transformers [27.422480166753537]
我々は、量子化されたモデルの可用性を目標とする、新しい攻撃であるQuantAttackを紹介する。
オペレーティングシステムのリソースを無駄にするために設計された、慎重に構築された敵の例は、最悪のパフォーマンスを引き起こす可能性があることを示す。
論文 参考訳(メタデータ) (2023-12-03T18:31:19Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - SPIQ: Data-Free Per-Channel Static Input Quantization [37.82255888371488]
効率的な推論手法は、機械学習コミュニティで注目を集めている。
本研究では,静的な入力量子化が,チャネルごとの入力量子化方式によって動的手法の精度レベルに達することを論じる。
提案手法はSPIQと呼ばれ、静的な推論速度で動的アプローチに匹敵する精度を実現する。
論文 参考訳(メタデータ) (2022-03-28T10:59:18Z) - Zero-shot Adversarial Quantization [11.722728148523366]
ゼロショット逆量子化(ZAQ: Zero-shot adversarial quantization)フレームワークを提案し,効果的な不一致推定と知識伝達を容易にする。
これは、情報的で多様なデータ例を合成するためにジェネレータを駆動する、新しい2レベル不一致モデリングによって達成される。
強力なゼロショットベースラインに対してZAQの優位性を示す3つの基本的なビジョンタスクについて広範な実験を行います。
論文 参考訳(メタデータ) (2021-03-29T01:33:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。