論文の概要: Progressive Weight Loading: Accelerating Initial Inference and Gradually Boosting Performance on Resource-Constrained Environments
- arxiv url: http://arxiv.org/abs/2509.22319v2
- Date: Wed, 01 Oct 2025 13:53:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.789592
- Title: Progressive Weight Loading: Accelerating Initial Inference and Gradually Boosting Performance on Resource-Constrained Environments
- Title(参考訳): プログレッシブウェイトローディング:資源制約環境における初期推論の高速化と漸進的な性能向上
- Authors: Hyunwoo Kim, Junha Lee, Mincheol Choi, Jeonghwan Lee, Jaeshin Cho,
- Abstract要約: プログレッシブウェイトローディング(Progressive Weight Loading, PWL)は、最初は軽量の学生モデルをデプロイし、次にその層を事前訓練された教師モデルに置き換えることで、高速な初期推論を可能にする技術である。
VGG, ResNet, ViT アーキテクチャに関する実験により,PWL で訓練されたモデルは,教師層がロードされるにつれて,競争蒸留性能を維持し,徐々に精度を向上することを示した。
- 参考スコア(独自算出の注目度): 8.020686883632594
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Deep learning models have become increasingly large and complex, resulting in higher memory consumption and computational demands. Consequently, model loading times and initial inference latency have increased, posing significant challenges in mobile and latency-sensitive environments where frequent model loading and unloading are required, which directly impacts user experience. While Knowledge Distillation (KD) offers a solution by compressing large teacher models into smaller student ones, it often comes at the cost of reduced performance. To address this trade-off, we propose Progressive Weight Loading (PWL), a novel technique that enables fast initial inference by first deploying a lightweight student model, then incrementally replacing its layers with those of a pre-trained teacher model. To support seamless layer substitution, we introduce a training method that not only aligns intermediate feature representations between student and teacher layers, but also improves the overall output performance of the student model. Our experiments on VGG, ResNet, and ViT architectures demonstrate that models trained with PWL maintain competitive distillation performance and gradually improve accuracy as teacher layers are loaded-matching the final accuracy of the full teacher model without compromising initial inference speed. This makes PWL particularly suited for dynamic, resource-constrained deployments where both responsiveness and performance are critical.
- Abstract(参考訳): ディープラーニングモデルはますます大きく複雑になり、メモリ消費と計算要求が増大する。
その結果、モデルローディング時間と初期推論レイテンシが増加し、頻繁にモデルローディングとアンロードが必要なモバイルおよび遅延に敏感な環境において、ユーザエクスペリエンスに直接影響する重要な課題が生じる。
知識蒸留(KD)は、大きな教師モデルを小さな学生に圧縮することで解を提供するが、性能を低下させるコストがかかることが多い。
このトレードオフに対処するため,まず軽量な学生モデルを配置し,その層を事前学習した教師モデルに置き換えることで,初期推論を高速に行う新しい手法であるProgressive Weight Loading (PWL)を提案する。
シームレスな層置換を支援するため,学生層と教師層間の中間特徴表現を整列するだけでなく,学生モデルの全体的な出力性能を向上させる訓練手法を提案する。
VGG, ResNet, ViT アーキテクチャに関する実験により,PWL で訓練されたモデルは,初期の推論速度を損なうことなく,教師層をロードすることにより,競争蒸留性能を維持し,徐々に精度を向上することを示した。
これによってPWLは、応答性とパフォーマンスの両方が重要となる動的でリソース制約のあるデプロイメントに特に適している。
関連論文リスト
- Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - FlowDistill: Scalable Traffic Flow Prediction via Distillation from LLMs [5.6685153523382015]
FlowDistillは、大規模言語モデル(LLM)からの知識蒸留に基づく軽量交通予測フレームワークである
その単純さにもかかわらず、FlowDistillは、トレーニングデータを大幅に少なくしながら、予測精度で最先端のモデルを一貫して上回る。
論文 参考訳(メタデータ) (2025-04-02T19:54:54Z) - Over-parameterized Student Model via Tensor Decomposition Boosted Knowledge Distillation [10.48108719012248]
我々は、より大規模な教師モデルを模倣するために、コンパクトな学生モデルを訓練する知識蒸留(KD)に焦点を当てる。
これまでの作業の多くとは対照的に、トレーニング中の学生モデルのパラメータをスケールアップする。
論文 参考訳(メタデータ) (2024-11-10T12:40:59Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Continual Learners are Incremental Model Generalizers [70.34479702177988]
本稿では,継続学習モデル(CL)が事前学習者に与える影響を幅広く研究する。
その結果, 微調整性能が著しく低下することなく, 表現の伝達品質が徐々に向上することがわかった。
本稿では,下流タスクの解法において,リッチなタスクジェネリック表現を保存できる新しい微調整方式GLobal Attention Discretization(GLAD)を提案する。
論文 参考訳(メタデータ) (2023-06-21T05:26:28Z) - Towards a Smaller Student: Capacity Dynamic Distillation for Efficient
Image Retrieval [49.01637233471453]
従来の知識蒸留に基づく効率的な画像検索手法は,高速推論のための学生モデルとして軽量なネットワークを用いる。
本稿では,編集可能な表現能力を持つ学生モデルを構築するための容量動的蒸留フレームワークを提案する。
提案手法は,教師としてのResNet101を前提として,VeRi-776データセットなどの推論速度と精度が優れている。
論文 参考訳(メタデータ) (2023-03-16T11:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。