論文の概要: Study of Training Dynamics for Memory-Constrained Fine-Tuning
- arxiv url: http://arxiv.org/abs/2510.19675v1
- Date: Wed, 22 Oct 2025 15:21:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.023649
- Title: Study of Training Dynamics for Memory-Constrained Fine-Tuning
- Title(参考訳): 記憶に制約のあるファインチューニングのためのトレーニングダイナミクスに関する研究
- Authors: Aël Quélennec, Nour Hezbri, Pavlo Mozharovskyi, Van-Tam Nguyen, Enzo Tartaglione,
- Abstract要約: TraDyはディープニューラルネットワークのための新しいトランスファー学習スキームである。
さまざまなダウンストリームタスクやアーキテクチャにわたって、最先端のパフォーマンスを実現する。
メモリ制限を厳格に維持し、最大99%のアクティベーション間隔、95%の重みデリバティブ間隔、および重みデリバティブ計算のためのFLOPの97%の削減を実現している。
- 参考スコア(独自算出の注目度): 19.283663659539588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Memory-efficient training of deep neural networks has become increasingly important as models grow larger while deployment environments impose strict resource constraints. We propose TraDy, a novel transfer learning scheme leveraging two key insights: layer importance for updates is architecture-dependent and determinable a priori, while dynamic stochastic channel selection provides superior gradient approximation compared to static approaches. We introduce a dynamic channel selection approach that stochastically resamples channels between epochs within preselected layers. Extensive experiments demonstrate TraDy achieves state-of-the-art performance across various downstream tasks and architectures while maintaining strict memory constraints, achieving up to 99% activation sparsity, 95% weight derivative sparsity, and 97% reduction in FLOPs for weight derivative computation.
- Abstract(参考訳): デプロイ環境が厳しいリソース制約を課す一方で、モデルが大きく成長するにつれて、ディープニューラルネットワークのメモリ効率のトレーニングがますます重要になっている。
動的確率チャネル選択は静的アプローチよりも優れた勾配近似を提供する一方、更新におけるレイヤの重要度はアーキテクチャに依存し、事前決定可能である。
本研究では,事前に選択した層内のエポック間のチャネルを確率的に再サンプリングする動的チャネル選択手法を提案する。
広範囲な実験により、TraDyは、厳しいメモリ制約を維持しながら、様々なダウンストリームタスクやアーキテクチャで最先端のパフォーマンスを実現し、最大99%のアクティベーション間隔、95%の重みデリバティブ間隔、および重みデリバティブ計算のためのFLOPの97%の削減を実現している。
関連論文リスト
- Towards the Training of Deeper Predictive Coding Neural Networks [44.14001498773255]
予測符号化ネットワーク(英: Predictive coding network)は、反復エネルギー最小化プロセスを通じて推論を行うニューラルネットワークである。
浅いアーキテクチャでは有効だが、5層から7層に留まらず、パフォーマンスが著しく低下する。
この劣化は,重み付け更新時の層間エラーの指数的不均衡と,より深い層内の更新を導くのに有効でない前の層からの予測が原因であることを示す。
論文 参考訳(メタデータ) (2025-06-30T12:44:47Z) - Stochastic Engrams for Efficient Continual Learning with Binarized Neural Networks [4.014396794141682]
我々は,メタプラスティック二項化ニューラルネットワーク(mBNN)のゲーティング機構として,可塑性活性化エングラムを統合した新しいアプローチを提案する。
以上の結果から, (A) トレードオフに対する安定性の向上, (B) メモリ集中度低下, (C) 双項化アーキテクチャの性能向上が示された。
論文 参考訳(メタデータ) (2025-03-27T12:21:00Z) - Deep Linear Network Training Dynamics from Random Initialization: Data, Width, Depth, and Hyperparameter Transfer [40.40780546513363]
我々は,枝を1/sqrttextdepth$にスケールした場合に無限の深さ制限を可能にする非残留ニューラルネットワークと残留ニューラルネットワークの両方について記述する。
本モデルでは, 電力法構造データに対する高速化された電力法則トレーニングのダイナミクスを, 最近の研究で観測されたリッチな状態下で回復することを示す。
論文 参考訳(メタデータ) (2025-02-04T17:50:55Z) - Robust Neural Pruning with Gradient Sampling Optimization for Residual Neural Networks [0.0]
この研究は、勾配サンプリング最適化技術、特にStochGradAdamをニューラルネットワークのプルーニングプロセスに統合するパイオニアとなる。
我々の主な目的は、資源制約のあるシナリオにおいて重要なプルーニングニューラルネットワークモデルの精度を維持するという重要な課題に対処することである。
論文 参考訳(メタデータ) (2023-12-26T12:19:22Z) - ConCerNet: A Contrastive Learning Based Framework for Automated
Conservation Law Discovery and Trustworthy Dynamical System Prediction [82.81767856234956]
本稿では,DNNに基づく動的モデリングの信頼性を向上させるために,ConCerNetという新しい学習フレームワークを提案する。
本手法は, 座標誤差と保存量の両方において, ベースラインニューラルネットワークよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-02-11T21:07:30Z) - FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。
本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文 参考訳(メタデータ) (2022-04-10T11:38:33Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。