論文の概要: Leveraging Stochastic Depth Training for Adaptive Inference
- arxiv url: http://arxiv.org/abs/2505.17626v1
- Date: Fri, 23 May 2025 08:36:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.932014
- Title: Leveraging Stochastic Depth Training for Adaptive Inference
- Title(参考訳): 適応推論のための確率的深度学習の活用
- Authors: Guilherme Korol, Antonio Carlos Schneider Beck, Jeronimo Castrillon,
- Abstract要約: 本稿では,ゼロオーバーヘッド,単一モデル,時間予測可能な推論を用いた適応推論の簡易かつ効果的な代替手法を提案する。
従来のResNetと比較して、精度0.71%の低下で最大2倍の効率向上を実現した。
- 参考スコア(独自算出の注目度): 1.996143466020199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic DNN optimization techniques such as layer-skipping offer increased adaptability and efficiency gains but can lead to i) a larger memory footprint as in decision gates, ii) increased training complexity (e.g., with non-differentiable operations), and iii) less control over performance-quality trade-offs due to its inherent input-dependent execution. To approach these issues, we propose a simpler yet effective alternative for adaptive inference with a zero-overhead, single-model, and time-predictable inference. Central to our approach is the observation that models trained with Stochastic Depth -- a method for faster training of residual networks -- become more resilient to arbitrary layer-skipping at inference time. We propose a method to first select near Pareto-optimal skipping configurations from a stochastically-trained model to adapt the inference at runtime later. Compared to original ResNets, our method shows improvements of up to 2X in power efficiency at accuracy drops as low as 0.71%.
- Abstract(参考訳): レイヤスキッピングのような動的DNN最適化技術は適応性と効率性の向上をもたらすが、それにつながる可能性がある。
一 決定ゲートのように大きなメモリフットプリント
二 訓練の複雑さ(例えば、差別化不可能な作業を伴うもの)を増し、
三 固有の入力依存実行のため、性能品質のトレードオフを抑えること。
これらの問題に対処するために、ゼロオーバーヘッド、単一モデル、時間予測可能な推論を用いた適応推論のよりシンプルで効果的な代替案を提案する。
我々のアプローチの中心は、残留ネットワークの高速なトレーニング方法であるStochastic Depthでトレーニングされたモデルが、推論時に任意のレイヤスキャッピングに対してよりレジリエントになる、という観察である。
本稿では,確率論的に学習したモデルから,まずパレート最適スキップ構成を選択する手法を提案する。
従来のResNetと比較して、精度0.71%の低下で最大2倍の効率向上を実現した。
関連論文リスト
- RL-PINNs: Reinforcement Learning-Driven Adaptive Sampling for Efficient Training of PINNs [0.0]
物理インフォームドニューラルネットワーク(PINN)は偏微分方程式(PDE)を解くための強力なフレームワークとして登場した。
彼らのパフォーマンスは、トレーニングポイントの選択に使われる戦略に大きく依存しています。
RL-PINN(RL-PINN)は,1ラウンドのサンプリングだけで効率的なトレーニングを可能にする強化学習駆動型適応サンプリングフレームワークである。
論文 参考訳(メタデータ) (2025-04-17T13:50:55Z) - Unsupervised Parameter Efficient Source-free Post-pretraining [52.27955794126508]
教師なしのUpStepを紹介します。
ソースドメインからターゲットドメインへのベースモデルを適応するための、ソースフリーのポストプレトレーニングアプローチ。
私たちは、Imagenetをベースモデルとして、教師付きおよび教師なしの両方でトレーニングされた、さまざまな一般的なバックボーンアーキテクチャを使用します。
論文 参考訳(メタデータ) (2025-02-28T18:54:51Z) - MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。
我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。
その結果,MARSの実装はAdamより一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - DiP-GO: A Diffusion Pruner via Few-step Gradient Optimization [22.546989373687655]
本稿では,よりインテリジェントで微分可能なプルーナーを用いて,効率的な拡散モデルを導出する新しいプルーニング法を提案する。
提案手法はSD-1.5の4.4倍の高速化を実現し,従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T12:18:24Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Adaptive Serverless Learning [114.36410688552579]
本研究では,データから学習率を動的に計算できる適応型分散学習手法を提案する。
提案アルゴリズムは, 作業者数に対して線形高速化が可能であることを示す。
通信効率のオーバーヘッドを低減するため,通信効率のよい分散訓練手法を提案する。
論文 参考訳(メタデータ) (2020-08-24T13:23:02Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Robust Learning Rate Selection for Stochastic Optimization via Splitting
Diagnostic [5.395127324484869]
SplitSGDは最適化のための新しい動的学習スケジュールである。
本手法は,対象関数の局所的幾何への適応性を向上するために学習率を低下させる。
基本的には標準のSGDよりも計算コストがかかるわけではない。
論文 参考訳(メタデータ) (2019-10-18T19:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。