論文の概要: One Size Does Not Fit All: Architecture-Aware Adaptive Batch Scheduling with DEBA
- arxiv url: http://arxiv.org/abs/2511.03809v1
- Date: Wed, 05 Nov 2025 19:19:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.194034
- Title: One Size Does Not Fit All: Architecture-Aware Adaptive Batch Scheduling with DEBA
- Title(参考訳): One Sizeがすべてに適合しない - DEBAによるアーキテクチャ対応バッチスケジューリング
- Authors: François Belias, Naser Ezzati-Jivan, Foutse Khomh,
- Abstract要約: 適応型バッチスケジューラであるDEBAを導入する。
アーキテクチャが適応の有効性を根本的に決定できることを実証する。
- 参考スコア(独自算出の注目度): 9.344832445480415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adaptive batch size methods aim to accelerate neural network training, but existing approaches apply identical adaptation strategies across all architectures, assuming a one-size-fits-all solution. We introduce DEBA (Dynamic Efficient Batch Adaptation), an adaptive batch scheduler that monitors gradient variance, gradient norm variation and loss variation to guide batch size adaptations. Through systematic evaluation across six architectures (ResNet-18/50, DenseNet-121, EfficientNet-B0, MobileNet-V3, ViT-B16) on CIFAR-10 and CIFAR-100, with five random seeds per configuration, we demonstrate that the architecture fundamentally determines adaptation efficacy. Our findings reveal that: (1) lightweight and medium-depth architectures (MobileNet-V3, DenseNet-121, EfficientNet-B0) achieve a 45-62% training speedup with simultaneous accuracy improvements of 1-7%; (2) shallow residual networks (ResNet-18) show consistent gains of +2.4 - 4.0% in accuracy, 36 - 43% in speedup, while deep residual networks (ResNet-50) exhibit high variance and occasional degradation; (3) already-stable architectures (ViT-B16) show minimal speedup (6%) despite maintaining accuracy, indicating that adaptation benefits vary with baseline optimization characteristics. We introduce a baseline characterization framework using gradient stability metrics (stability score, gradient norm variation) that predicts which architectures will benefit from adaptive scheduling. Our ablation studies reveal critical design choices often overlooked in prior work: sliding window statistics (vs. full history) and sufficient cooldown periods (5+ epochs) between adaptations are essential for success. This work challenges the prevailing assumption that adaptive methods generalize across architectures and provides the first systematic evidence that batch size adaptation requires an architecture-aware design.
- Abstract(参考訳): 適応バッチサイズ手法は、ニューラルネットワークのトレーニングを加速することを目的としているが、既存のアプローチでは、すべてのアーキテクチャに同じ適応戦略を適用している。
適応型バッチスケジューラであるDEBA(Dynamic Efficient Batch Adaptation)を導入する。
CIFAR-10 と CIFAR-100 上の 6 つのアーキテクチャ (ResNet-18/50, DenseNet-121, EfficientNet-B0, MobileNet-V3, ViT-B16) を体系的に評価することにより, アーキテクチャが適応の有効性を根本的に決定することを示す。
その結果,(1)軽量・中深度アーキテクチャ (MobileNet-V3, DenseNet-121, EfficientNet-B0) は,45~62%のトレーニングスピードアップを実現し,その精度は1~7%向上した。(2) 浅部残差ネットワーク (ResNet-18) は+2.4~4.0%,36~43%,深部残差ネットワーク (ResNet-50) は高いばらつきと時相劣化を示した。
本稿では,適応スケジューリングの恩恵を受けるアーキテクチャを予測するための,勾配安定性指標(安定性スコア,勾配ノルム変動)を用いたベースラインキャラクタリゼーションフレームワークを提案する。
我々のアブレーション研究は、以前の研究でしばしば見過ごされる重要な設計上の選択を明らかにしている: ウィンドウ統計(vs. full history)と十分な冷却期間(5+epochs)が成功に不可欠である。
この研究は、適応的手法がアーキテクチャ全体にわたって一般化されるという一般的な仮定に挑戦し、バッチサイズ適応がアーキテクチャを意識した設計を必要とするという最初のシステマティックな証拠を提供する。
関連論文リスト
- Tri-Accel: Curvature-Aware Precision-Adaptive and Memory-Elastic Optimization for Efficient GPU Usage [0.6511750267058007]
Tri-Accelは3つのアクセラレーション戦略と、トレーニング中の適応パラメータを併用する統合最適化フレームワークである。
ResNet-18とEfficientNet-B0を搭載したCIFAR-10では、Tri-Accelはトレーニング時間の最大9.9%削減とメモリ使用量の13.3%削減を実現している。
静的混合精度トレーニングと比較して、Tri-Accelは78.1%の精度を維持し、標準ハードウェアのメモリフットプリントを0.35GBから0.31GBに削減している。
論文 参考訳(メタデータ) (2025-08-23T05:38:42Z) - Loss-Aware Automatic Selection of Structured Pruning Criteria for Deep Neural Network Acceleration [1.3225694028747144]
本稿では,深層ニューラルネットワークのスリム化と高速化に有効なLAASP(Los-Aware Automatic Selection of Structured Pruning Criteria)を提案する。
刈り取り訓練アプローチは第1段階を排除し、第2段階と第3段階を1サイクルに統合する。
CIFAR-10およびImageNetベンチマークデータセットにおけるVGGNetとResNetモデルの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-06-25T06:18:46Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Efficient Joint Optimization of Layer-Adaptive Weight Pruning in Deep
Neural Networks [48.089501687522954]
ディープニューラルネットワーク(DNN)のための新しい層適応型重み決定手法を提案する。
我々のアプローチは、レイヤ適応型プルーニングスキームを設計するためのすべてのレイヤの集団的影響を考慮に入れている。
我々の実験は、ImageNetとCIFAR-10データセット上の既存の手法よりも、我々のアプローチの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-08-21T03:22:47Z) - SmoothNets: Optimizing CNN architecture design for differentially
private deep learning [69.10072367807095]
DPSGDは、サンプルごとの勾配の切り抜きとノイズ付けを必要とする。
これにより、非プライベートトレーニングと比較してモデルユーティリティが削減される。
SmoothNetと呼ばれる新しいモデルアーキテクチャを蒸留し,DP-SGDトレーニングの課題に対するロバスト性の向上を特徴とした。
論文 参考訳(メタデータ) (2022-05-09T07:51:54Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z) - FBNetV3: Joint Architecture-Recipe Search using Predictor Pretraining [65.39532971991778]
サンプル選択とランキングの両方を導くことで、アーキテクチャとトレーニングのレシピを共同でスコアする精度予測器を提案する。
高速な進化的検索をCPU分で実行し、さまざまなリソース制約に対するアーキテクチャと準備のペアを生成します。
FBNetV3は最先端のコンパクトニューラルネットワークのファミリーを構成しており、自動と手動で設計された競合より優れている。
論文 参考訳(メタデータ) (2020-06-03T05:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。