論文の概要: DeInfoReg: A Decoupled Learning Framework for Better Training Throughput
- arxiv url: http://arxiv.org/abs/2506.18193v1
- Date: Sun, 22 Jun 2025 22:50:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.797828
- Title: DeInfoReg: A Decoupled Learning Framework for Better Training Throughput
- Title(参考訳): DeInfoReg: 学習プロセスを改善するための分離学習フレームワーク
- Authors: Zih-Hao Huang, You-Teng Lin, Hung-Hsuan Chen,
- Abstract要約: 本稿では,DeInfoRegを用いたDecoupled Supervised Learningを提案する。
長い勾配流を複数の短い勾配に変換し、消滅する勾配問題を緩和する。
提案手法を標準バックプロパゲーションや他の勾配流分解技術と比較した。
- 参考スコア(独自算出の注目度): 1.8434042562191815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces Decoupled Supervised Learning with Information Regularization (DeInfoReg), a novel approach that transforms a long gradient flow into multiple shorter ones, thereby mitigating the vanishing gradient problem. Integrating a pipeline strategy, DeInfoReg enables model parallelization across multiple GPUs, significantly improving training throughput. We compare our proposed method with standard backpropagation and other gradient flow decomposition techniques. Extensive experiments on diverse tasks and datasets demonstrate that DeInfoReg achieves superior performance and better noise resistance than traditional BP models and efficiently utilizes parallel computing resources. The code for reproducibility is available at: https://github.com/ianzih/Decoupled-Supervised-Learning-for-Information-Regularization/.
- Abstract(参考訳): 本稿では,Decoupled Supervised Learning with Information Regularization (DeInfoReg)を提案する。
パイプライン戦略を統合することで、DeInfoRegは複数のGPU間のモデルの並列化を可能にし、トレーニングスループットを大幅に改善する。
提案手法を標準バックプロパゲーションや他の勾配流分解技術と比較した。
多様なタスクやデータセットに関する大規模な実験により、DeInfoRegは従来のBPモデルよりも優れた性能と耐雑音性を達成し、並列計算資源を効率的に活用することを示した。
再現性に関するコードは、https://github.com/ianzih/Decoupled-Supervised-Learning-for-Information-Regularization/で公開されている。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Multiscale Stochastic Gradient Descent: Efficiently Training Convolutional Neural Networks [6.805997961535213]
Multiscale Gradient Descent (Multiscale-SGD) は、粗大なトレーニング戦略を利用した新しい最適化手法である。
学習可能なスケールに依存しないMesh-Free Convolutions (MFC) の新たなクラスを導入する。
本研究は,高分解能・マルチスケール学習タスクにおける実用的なスケーラビリティを実現するため,ディープネットワークの効率的なトレーニングのための新しいパラダイムを構築した。
論文 参考訳(メタデータ) (2025-01-22T09:13:47Z) - Linearly Convergent Mixup Learning [0.0]
より広い範囲のバイナリ分類モデルに拡張する2つの新しいアルゴリズムを提案する。
勾配に基づくアプローチとは異なり、我々のアルゴリズムは学習率のようなハイパーパラメータを必要とせず、実装と最適化を単純化する。
我々のアルゴリズムは、降下勾配法と比較して最適解への高速収束を実現し、ミックスアップデータの増大は、様々な損失関数の予測性能を一貫して改善する。
論文 参考訳(メタデータ) (2025-01-14T02:33:40Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - DTL: Disentangled Transfer Learning for Visual Recognition [21.549234013998255]
軽量なコンパクトサイドネットワーク(CSN)を用いて、トレーニング可能なパラメータをバックボーンから切り離すDTL(Disentangled Transfer Learning)を導入する。
提案手法は,大量のGPUメモリ使用量とトレーニング可能なパラメータを削減できるだけでなく,既存のPETL法よりも高い精度で性能を向上する。
論文 参考訳(メタデータ) (2023-12-13T02:51:26Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - FedDA: Faster Framework of Local Adaptive Gradient Methods via Restarted
Dual Averaging [104.41634756395545]
フェデレートラーニング(Federated Learning, FL)は、大規模な分散データに取り組むための新たな学習パラダイムである。
局所適応勾配法のための新しいフレームワークである textbfFedDA を提案する。
textbfFedDA-MVR は適応FLアルゴリズムとしては初めてこの速度を実現することを示す。
論文 参考訳(メタデータ) (2023-02-13T05:10:30Z) - GuideBP: Guiding Backpropagation Through Weaker Pathways of Parallel
Logits [6.764324841419295]
提案手法は、最も弱い概念表現に沿ったバックプロパゲーションの勾配を導く。
弱点スコアは、ロジットの作成に使用される個々の経路のクラス固有のパフォーマンスを定義する。
提案手法は従来のカラムマージ手法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2021-04-23T14:14:00Z) - DeConFuse : A Deep Convolutional Transform based Unsupervised Fusion
Framework [29.58965424136611]
本研究では、深層畳み込み変換学習に基づく教師なし融合フレームワークを提案する。
ストック予測とトレーディングの問題に対して,提案手法であるDeConFuseを適用した。
論文 参考訳(メタデータ) (2020-11-09T11:04:09Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。