論文の概要: Beyond Random: Automatic Inner-loop Optimization in Dataset Distillation
- arxiv url: http://arxiv.org/abs/2510.04838v1
- Date: Mon, 06 Oct 2025 14:22:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.896488
- Title: Beyond Random: Automatic Inner-loop Optimization in Dataset Distillation
- Title(参考訳): Beyond Random: データセット蒸留における内部ループの自動最適化
- Authors: Muquan Li, Hang Gou, Dongyang Zhang, Shuang Liang, Xiurui Xie, Deqiang Ouyang, Ke Qin,
- Abstract要約: データセット蒸留のためのAT-BPTT(Automatic Truncated Backproagation Through Time)を提案する。
AT-BPTTは、内在勾配の挙動に応じて、トラニケート位置とウィンドウサイズの両方に適応する。
CIFAR-10、CIFAR-100、Tiny-ImageNet、ImageNet-1Kの実験では、AT-BPTTが最先端の性能を達成することが示された。
- 参考スコア(独自算出の注目度): 11.37339433547758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing demand for efficient deep learning has positioned dataset distillation as a pivotal technique for compressing training dataset while preserving model performance. However, existing inner-loop optimization methods for dataset distillation typically rely on random truncation strategies, which lack flexibility and often yield suboptimal results. In this work, we observe that neural networks exhibit distinct learning dynamics across different training stages-early, middle, and late-making random truncation ineffective. To address this limitation, we propose Automatic Truncated Backpropagation Through Time (AT-BPTT), a novel framework that dynamically adapts both truncation positions and window sizes according to intrinsic gradient behavior. AT-BPTT introduces three key components: (1) a probabilistic mechanism for stage-aware timestep selection, (2) an adaptive window sizing strategy based on gradient variation, and (3) a low-rank Hessian approximation to reduce computational overhead. Extensive experiments on CIFAR-10, CIFAR-100, Tiny-ImageNet, and ImageNet-1K show that AT-BPTT achieves state-of-the-art performance, improving accuracy by an average of 6.16% over baseline methods. Moreover, our approach accelerates inner-loop optimization by 3.9x while saving 63% memory cost.
- Abstract(参考訳): 効率的な深層学習の需要が高まる中で、モデル性能を維持しながらトレーニングデータセットを圧縮するための重要な技術としてデータセット蒸留が位置づけられている。
しかし、データセット蒸留のための既存の内部ループ最適化手法は、通常、柔軟性に欠け、しばしば準最適結果をもたらすランダム・トランケーション戦略に依存している。
本研究では、ニューラルネットワークが異なる訓練段階(初期、中、後期のランダム・トランケーション)にわたって異なる学習ダイナミクスを示すことを観察する。
この制限に対処するため,本研究では,時間的傾きに応じてトランケーション位置とウィンドウサイズを動的に適応する新しいフレームワークであるAutomatic Truncated Backproagation Through Time (AT-BPTT)を提案する。
AT-BPTTは,(1)段階認識時間ステップ選択の確率的メカニズム,(2)勾配変動に基づく適応型ウィンドウサイズ戦略,(3)計算オーバーヘッドを低減するための低ランクヘッセン近似の3つの重要な要素を導入している。
CIFAR-10、CIFAR-100、Tiny-ImageNet、ImageNet-1Kの大規模な実験により、AT-BPTTは最先端の性能を達成し、ベースライン法よりも平均6.16%精度が向上した。
さらに,メモリコストを63%削減しつつ,ループ内最適化を3.9倍に高速化する。
関連論文リスト
- Tri-Accel: Curvature-Aware Precision-Adaptive and Memory-Elastic Optimization for Efficient GPU Usage [0.6511750267058007]
Tri-Accelは3つのアクセラレーション戦略と、トレーニング中の適応パラメータを併用する統合最適化フレームワークである。
ResNet-18とEfficientNet-B0を搭載したCIFAR-10では、Tri-Accelはトレーニング時間の最大9.9%削減とメモリ使用量の13.3%削減を実現している。
静的混合精度トレーニングと比較して、Tri-Accelは78.1%の精度を維持し、標準ハードウェアのメモリフットプリントを0.35GBから0.31GBに削減している。
論文 参考訳(メタデータ) (2025-08-23T05:38:42Z) - Leveraging Stochastic Depth Training for Adaptive Inference [1.996143466020199]
本稿では,ゼロオーバーヘッド,単一モデル,時間予測可能な推論を用いた適応推論の簡易かつ効果的な代替手法を提案する。
従来のResNetと比較して、精度0.71%の低下で最大2倍の効率向上を実現した。
論文 参考訳(メタデータ) (2025-05-23T08:36:56Z) - SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer [49.1761733723771]
本稿では,テキスト・画像生成における効率的なスケーリングを実現する線形拡散変換器であるSANA-1.5を提案する。
効率的なトレーニングスケーリング、モデルの深さ決定、推論時間スケーリングの3つの重要なイノベーションを紹介します。
これらの戦略により、SANA-1.5 は GenEval 上のテキスト計算画像アライメントスコア 0.81 を達成し、VILA-Judge による推論スケーリングにより、さらに 0.96 に改善できる。
論文 参考訳(メタデータ) (2025-01-30T15:31:48Z) - Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models [33.911521719528686]
微調整は、大きな言語モデルを下流タスクに適応させるには強力だが、多くの場合、大きなメモリ使用量をもたらす。
有望なアプローチはゼロ階勾配 (ZO) を使うことであり、これは第一階勾配 (FO) を置き換えると見積もられている。
本稿では,レイヤワイドスパース計算とメモリ効率の高いZO,LeZOを提案する。
論文 参考訳(メタデータ) (2024-10-13T12:47:37Z) - Towards Memory- and Time-Efficient Backpropagation for Training Spiking
Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。
本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。
BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文 参考訳(メタデータ) (2023-02-28T05:01:01Z) - Efficient NLP Model Finetuning via Multistage Data Filtering [11.058786955754004]
ターゲットモデルのトレーニングと合わせて,トレーニングサンプルをストリーミング形式でフィルタすることにしました。
1)後方トレーニングパスをスキップするためのトレーニング損失閾値を自動的に決定し,(2)前方トレーニングパスをスキップするためのメタ予測器を実行する。
本手法では,必要なトレーニング例を最大5.3$times$に,トレーニング時間を最大6.8$times$に短縮する。
論文 参考訳(メタデータ) (2022-07-28T21:43:31Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。