論文の概要: When Losses Align: Gradient-Based Composite Loss Weighting for Efficient Pretraining
- arxiv url: http://arxiv.org/abs/2605.07756v1
- Date: Fri, 08 May 2026 13:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.090755
- Title: When Losses Align: Gradient-Based Composite Loss Weighting for Efficient Pretraining
- Title(参考訳): グラディエントベース複合損失重み付けによる効率的な事前トレーニング
- Authors: Ivan Karpukhin, Andrey Savchenko,
- Abstract要約: 本稿では, 複合事前学習勾配を下流目標と整列させることで, 事前学習の損失重みをオンラインで学習する勾配に基づく2レベル手法を提案する。
我々は、イベント系列モデリングと自己教師型コンピュータビジョンのアプローチを評価し、注意深く調整されたベースラインにマッチし、改善する。
- 参考スコア(独自算出の注目度): 1.6770509632003592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern deep models are often pretrained on large-scale data with missing labels using composite objectives, where the relative weights of multiple loss terms act as hyperparameters. Tuning these weights with random search or Bayesian optimization is computationally expensive, as it requires many independent training runs. To address this, we propose a gradient-based bilevel method that learns pretraining loss weights online by aligning the composite pretraining gradient with a downstream objective. By exploiting the structure of the loss, the method avoids the multiple backward passes typically required by truncated backpropagation through the full model, reducing the overhead of hyperparameter tuning to approximately 30% above a single training run. We evaluate the approach on event-sequence modeling and self-supervised computer vision, where it matches or improves upon carefully tuned baselines while substantially reducing the cost of hyperparameter tuning compared to random or Bayesian search.
- Abstract(参考訳): 現代のディープモデルは、複数の損失項の相対重みがハイパーパラメータとして機能する複合目的を用いて、ラベルを欠いた大規模データで事前訓練されることが多い。
これらの重みをランダムな探索やベイズ最適化で調整することは、多くの独立した訓練を必要とするため、計算コストがかかる。
そこで本研究では,合成事前学習勾配を下流目標と整列させることで,事前学習の損失重みをオンラインで学習するグラデーションベースバイレベル手法を提案する。
損失の構造を利用することで、本手法は、通常、フルモデルを通して逆伝播を繰り返すことによって必要となる多重後方通過を回避し、ハイパーパラメータチューニングのオーバーヘッドを1回のトレーニングランの約30%に削減する。
本稿では,イベント系列モデリングと自己教師型コンピュータビジョンのアプローチについて評価する。この手法は,乱数やベイジアン探索と比較してハイパーパラメータチューニングのコストを大幅に削減しつつ,注意深く調整されたベースラインに適合し,改善する。
関連論文リスト
- Neural Network Optimization Reimagined: Decoupled Techniques for Scratch and Fine-Tuning [49.751529745537546]
我々はDualOptを提案する。DualOptは、スクラッチからトレーニングに適した最適化技術を分離する新しいアプローチである。
スクラッチからのトレーニングでは、収束と一般化の両面を強化するために設計されたリアルタイムな層ワイド・ウェイト・デポジットを導入する。
我々は、異なる下流タスクの様々な要求に適応して、レイヤ単位の重量減衰を拡張して、レイヤ間のロールバックレベルを動的に調整する。
論文 参考訳(メタデータ) (2026-04-21T06:27:18Z) - You Only Train Once [11.97836331714694]
You Only Train Once (YOTO)は、損失選択と重み付けの後者の側面において、トレーニングを1ショットに制限することに貢献する。
複数の経験的損失を同時に最適化するために広く用いられている複合損失定式化の微分可能性を活用する。
YOTOは、未確認テストデータにおいて、最高のグリッド検索モデルよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-06-04T18:04:58Z) - AdaRankGrad: Adaptive Gradient-Rank and Moments for Memory-Efficient LLMs Training and Fine-Tuning [9.51289606759621]
大規模言語モデル(LLM)の訓練と微調整には、メモリと計算要求に関する課題が伴う。
低ランク適応(LoRA)など、これらの課題に対処する様々な技術が開発されている。
トレーニングが進むにつれて、推定勾配のランクが徐々に低下する現象に着想を得た新しい手法を導入する。
論文 参考訳(メタデータ) (2024-10-23T13:53:26Z) - Retraining-free Model Quantization via One-Shot Weight-Coupling Learning [41.299675080384]
混合精度量子化(MPQ)は、層に不均一なビット幅を割り当てることで、モデルを効果的に圧縮することを提唱する。
MPQは典型的には、探索訓練された2段階のプロセスに編成される。
本稿では,混合精度モデル圧縮のためのワンショットトレーニング探索パラダイムを考案する。
論文 参考訳(メタデータ) (2024-01-03T05:26:57Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。