論文の概要: Accelerating Learned Image Compression Through Modeling Neural Training Dynamics
- arxiv url: http://arxiv.org/abs/2505.18107v1
- Date: Fri, 23 May 2025 17:03:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.241626
- Title: Accelerating Learned Image Compression Through Modeling Neural Training Dynamics
- Title(参考訳): ニューラルトレーニングダイナミクスのモデリングによる学習画像圧縮の高速化
- Authors: Yichi Zhang, Zhihao Duan, Yuning Huang, Fengqing Zhu,
- Abstract要約: 本稿では,ニューラルトレーニングのダイナミクスをモデル化することにより,licメソッドのトレーニングを高速化する。
本稿ではまず,モデルパラメータを少数のモードにクラスタリングする感性認識型True and Dummy Embedding Training(STDET)を提案する。
さらに、トレーニングとパラメータ感性を通じて安定したモード内相関を利用して、非参照パラメータを徐々に埋め込んで、トレーニング可能なパラメータの数を減らした。
- 参考スコア(独自算出の注目度): 11.729071258457138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As learned image compression (LIC) methods become increasingly computationally demanding, enhancing their training efficiency is crucial. This paper takes a step forward in accelerating the training of LIC methods by modeling the neural training dynamics. We first propose a Sensitivity-aware True and Dummy Embedding Training mechanism (STDET) that clusters LIC model parameters into few separate modes where parameters are expressed as affine transformations of reference parameters within the same mode. By further utilizing the stable intra-mode correlations throughout training and parameter sensitivities, we gradually embed non-reference parameters, reducing the number of trainable parameters. Additionally, we incorporate a Sampling-then-Moving Average (SMA) technique, interpolating sampled weights from stochastic gradient descent (SGD) training to obtain the moving average weights, ensuring smooth temporal behavior and minimizing training state variances. Overall, our method significantly reduces training space dimensions and the number of trainable parameters without sacrificing model performance, thus accelerating model convergence. We also provide a theoretical analysis on the Noisy quadratic model, showing that the proposed method achieves a lower training variance than standard SGD. Our approach offers valuable insights for further developing efficient training methods for LICs.
- Abstract(参考訳): 学習された画像圧縮(lic)手法がますます計算に要求されるようになるにつれて、トレーニング効率の向上が不可欠である。
本稿では,ニューラルトレーニングのダイナミクスをモデル化することにより,licメソッドのトレーニングを高速化する。
本稿ではまず,パラメータを同一モード内で参照パラメータのアフィン変換として表現する,最小限の分離モードに分割する,感性を考慮したTrue and Dummy Embedding Training(STDET)を提案する。
さらに、トレーニングとパラメータ感性を通じて安定したモード内相関を利用して、非参照パラメータを徐々に埋め込んで、トレーニング可能なパラメータの数を減らした。
さらに,SMA(Samping-then-Moving Average)手法を取り入れ,確率勾配降下(SGD)トレーニングからサンプル重量を補間して移動平均重みを求めるとともに,スムーズな時間的挙動の確保とトレーニング状態の分散の最小化を図る。
本手法は, モデル性能を犠牲にすることなく, トレーニング空間次元とトレーニング可能なパラメータの数を大幅に削減し, モデル収束を加速させる。
また,Nuisy二次モデルの理論的解析を行い,提案手法が標準SGDよりも低いトレーニング分散を実現することを示す。
弊社のアプローチは、licの効率的なトレーニング方法をさらに発展させる上で、貴重な洞察を提供する。
関連論文リスト
- AdaRankGrad: Adaptive Gradient-Rank and Moments for Memory-Efficient LLMs Training and Fine-Tuning [9.51289606759621]
大規模言語モデル(LLM)の訓練と微調整には、メモリと計算要求に関する課題が伴う。
低ランク適応(LoRA)など、これらの課題に対処する様々な技術が開発されている。
トレーニングが進むにつれて、推定勾配のランクが徐々に低下する現象に着想を得た新しい手法を導入する。
論文 参考訳(メタデータ) (2024-10-23T13:53:26Z) - A parametric framework for kernel-based dynamic mode decomposition using deep learning [0.0]
提案されたフレームワークは、オフラインとオンラインの2つのステージで構成されている。
オンラインステージでは、これらのLANDOモデルを活用して、所望のタイミングで新しいデータを生成する。
高次元力学系に次元還元法を適用して, トレーニングの計算コストを低減させる。
論文 参考訳(メタデータ) (2024-09-25T11:13:50Z) - SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared
Pre-trained Language Models [109.06052781040916]
本稿ではパラメータ共有言語モデルの推論効率を向上させる手法を提案する。
また、完全あるいは部分的に共有されたモデルにつながる単純な事前学習手法を提案する。
その結果,本手法が自己回帰的および自己符号化的PLMに与える影響が示された。
論文 参考訳(メタデータ) (2023-10-19T15:13:58Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。