論文の概要: Adaptive Dataset Quantization: A New Direction for Dataset Pruning
- arxiv url: http://arxiv.org/abs/2512.05987v1
- Date: Fri, 28 Nov 2025 04:28:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 04:16:52.497437
- Title: Adaptive Dataset Quantization: A New Direction for Dataset Pruning
- Title(参考訳): Adaptive Dataset Quantization: Dataset Pruningの新しい方向
- Authors: Chenyue Yu, Jianyu Yu,
- Abstract要約: 本稿では,資源制約エッジデバイスにおける大規模データセットのストレージと通信コストの課題に対処する。
サンプル内冗長性を低減するための新しいデータセット量子化手法を提案する。
- 参考スコア(独自算出の注目度): 0.2578242050187029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the challenges of storage and communication costs for large-scale datasets in resource-constrained edge devices by proposing a novel dataset quantization approach to reduce intra-sample redundancy. Unlike traditional dataset pruning and distillation methods that focus on inter-sample redundancy, the proposed method compresses each image by reducing redundant or less informative content within samples while preserving essential features. It first applies linear symmetric quantization to obtain an initial quantization range and scale for each sample. Then, an adaptive quantization allocation algorithm is introduced to distribute different quantization ratios for samples with varying precision requirements, maintaining a constant total compression ratio. The main contributions include: (1) being the first to use limited bits to represent datasets for storage reduction; (2) introducing a dataset-level quantization algorithm with adaptive ratio allocation; and (3) validating the method's effectiveness through extensive experiments on CIFAR-10, CIFAR-100, and ImageNet-1K. Results show that the method maintains model training performance while achieving significant dataset compression, outperforming traditional quantization and dataset pruning baselines under the same compression ratios.
- Abstract(参考訳): 本稿では,資源制約エッジデバイスにおける大規模データセットのストレージと通信コストの課題について,サンプル内冗長性を低減するための新しいデータセット量子化手法を提案する。
サンプル間の冗長性に着目した従来のデータセットのプルーニングや蒸留法とは異なり,本手法では,本質的な特徴を保ちながら,サンプル内の冗長な,あるいは少ない情報的内容の削減により,各画像の圧縮を行う。
まず線形対称量子化を適用して初期量子化範囲と各試料のスケールを求める。
そして、適応量子化割当アルゴリズムを導入し、一定の総圧縮比を維持しながら、精度の異なるサンプルに対して異なる量子化比を分配する。
主なコントリビューションは、(1)ストレージの削減のためにデータセットを表すために初めて限られたビットを使用すること、(2)適応比を割り当てたデータセットレベルの量子化アルゴリズムを導入すること、(3)CIFAR-10、CIFAR-100、ImageNet-1Kの広範な実験を通じて、その方法の有効性を検証すること、である。
結果から,本手法は,従来の量子化およびデータセットプルーニングベースラインを同じ圧縮比で向上させながら,重要なデータセット圧縮を実現しつつ,モデルトレーニング性能を維持できることが示唆された。
関連論文リスト
- Efficient Multi-bit Quantization Network Training via Weight Bias Correction and Bit-wise Coreset Sampling [19.052294458935595]
マルチビット量子化ネットワークは、単一のモデル内で複数の精度レベルをサポートすることにより、ディープニューラルネットワークの柔軟な展開を可能にする。
既存のアプローチでは、サポート対象のビット幅毎にフルデータセット更新が繰り返されるため、トレーニングのオーバーヘッドが大幅に増大する。
本稿では,モデルの有用性を損なうことなく,トレーニングのオーバーヘッドを大幅に削減する2つの手法を提案する。
論文 参考訳(メタデータ) (2025-10-23T15:49:02Z) - Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - Learning from Loss Landscape: Generalizable Mixed-Precision Quantization via Adaptive Sharpness-Aware Gradient Aligning [14.559880408535024]
混合精度量子化(MPQ)は、層ごとの最適ビット幅を決定することにより、ニューラルネットワークを最適化するための重要な技術となっている。
しかし、既存のMPQ手法は大きなハードルに直面しており、大規模データセットの量子化ポリシーを計算に高価に検索する必要がある。
本稿では,まず小さなデータセットの量子化ポリシーを探索し,それらを大規模データセットに一般化する手法を提案する。
論文 参考訳(メタデータ) (2025-05-08T01:20:24Z) - Efficient Dataset Distillation through Low-Rank Space Sampling [34.29086540681496]
本稿では,低ランク空間サンプリングを用いたマッチング学習軌道に基づくデータセット蒸留手法を提案する。
合成データは、これらの部分空間から基底ベクトルと共有次元マッパーによって表現される。
提案手法は, CIFAR-10, CIFAR-100, SVHNデータセット上で試験され, 平均9.9%の精度でベースライン法より優れている。
論文 参考訳(メタデータ) (2025-03-11T02:59:17Z) - Adaptive Dataset Quantization [2.0105434963031463]
適応データセット量子化(ADQ)という,データセット圧縮のための汎用フレームワークを導入する。
本稿では,生成したビンの代表性スコア,多様性スコア,重要度スコアの評価を通じて,新しい適応型サンプリング戦略を提案する。
提案手法は, 異なるアーキテクチャにまたがる優れた一般化能力を示すだけでなく, 各種データセットにおいてDQを平均3%越えて, 最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-12-22T07:08:29Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - Dataset Condensation with Latent Space Knowledge Factorization and
Sharing [73.31614936678571]
与えられたデータセットの規則性を利用してデータセットの凝縮問題を解決する新しい手法を提案する。
データセットを元の入力空間に直接凝縮するのではなく、学習可能な一連のコードでデータセットの生成プロセスを仮定する。
提案手法は,様々なベンチマークデータセットに対して,有意なマージンで新しい最先端記録を達成できることを実験的に示す。
論文 参考訳(メタデータ) (2022-08-21T18:14:08Z) - ClusterQ: Semantic Feature Distribution Alignment for Data-Free
Quantization [111.12063632743013]
本稿では,ClusterQと呼ばれるデータフリーな量子化手法を提案する。
意味的特徴のクラス間分離性を高めるために,特徴分布統計をクラスタ化し,整列する。
また、クラス内分散を組み込んで、クラスワイドモードの崩壊を解決する。
論文 参考訳(メタデータ) (2022-04-30T06:58:56Z) - High Dimensional Statistical Estimation under One-bit Quantization [27.718986773043643]
1ビット(バイナリ)データは、信号ストレージ、処理、送信、プライバシーの強化といった効率性のために、多くのアプリケーションで好まれる。
本稿では,3つの基本的な統計的推定問題について検討する。
ガウス系と重尾系の両方で、高次元スケーリングを扱う新しい推定器が提案されている。
論文 参考訳(メタデータ) (2022-02-26T15:13:04Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。