論文の概要: Efficient Hyperparameter Tuning via Trajectory Invariance Principle
- arxiv url: http://arxiv.org/abs/2509.25049v1
- Date: Mon, 29 Sep 2025 17:01:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.14831
- Title: Efficient Hyperparameter Tuning via Trajectory Invariance Principle
- Title(参考訳): 軌道不変原理による効率的なハイパーパラメータチューニング
- Authors: Bingrui Li, Jiaxin Wen, Zhanpeng Zhou, Jun Zhu, Jianfei Chen,
- Abstract要約: 学習速度と重み減衰を組み合わせた量に関して, 学習前損失曲線, 勾配雑音, 勾配ノルムがほぼ重なり合う, トラジェクトリ不変(trajectory invariance)と呼ばれる現象を同定する。
この現象は、元の2次元のハイパーパラメータ空間を1次元に効果的に還元し、効率的なチューニング規則をもたらす。
全体として,本研究は,効率的なチューニングのための新しい原則を提案し,スケーリング法則に関する今後の研究を刺激するものである。
- 参考スコア(独自算出の注目度): 35.90572735438328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As hyperparameter tuning becomes increasingly costly at scale, efficient tuning methods are essential. Yet principles for guiding hyperparameter tuning remain limited. In this work, we seek to establish such principles by considering a broad range of hyperparameters, including batch size, learning rate, and weight decay. We identify a phenomenon we call trajectory invariance, where pre-training loss curves, gradient noise, and gradient norm exhibit invariance--closely overlapping--with respect to a quantity that combines learning rate and weight decay. This phenomenon effectively reduces the original two-dimensional hyperparameter space to one dimension, yielding an efficient tuning rule: follow the salient direction revealed by trajectory invariance. Furthermore, we refine previous scaling laws and challenge several existing viewpoints. Overall, our work proposes new principles for efficient tuning and inspires future research on scaling laws.
- Abstract(参考訳): ハイパーパラメータチューニングが大規模化するにつれ,効率的なチューニング手法が不可欠である。
しかし、ハイパーパラメータチューニングを導くための原則は依然として限られている。
本研究では,バッチサイズ,学習速度,体重減少など,幅広いハイパーパラメータを考慮し,そのような原理の確立を目指す。
学習速度と重み減衰を組み合わせた量に関して, 学習前損失曲線, 勾配雑音, 勾配ノルムがほぼ重なり合う, トラジェクトリ不変(trajectory invariance)と呼ばれる現象を同定する。
この現象は、もともとの2次元のハイパーパラメータ空間を1次元に効果的に還元し、効率的なチューニング規則を与える。
さらに、従来のスケーリング法則を洗練し、いくつかの既存の視点に挑戦する。
全体として,本研究は,効率的なチューニングのための新しい原則を提案し,スケーリング法則に関する今後の研究を刺激するものである。
関連論文リスト
- Weight Spectra Induced Efficient Model Adaptation [54.8615621415845]
微調整された大規模な基礎モデルは、計算コストを禁ずる。
微調整が最上位特異値を大きく増幅する一方で,残りはほとんど無傷であることを示す。
本稿では,トップ特異方向の学習可能な再スケーリングを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T05:03:29Z) - PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization [35.922096876707975]
PACE は PArameter- efficient fine-tuning with Consistency rEgularization の一般化である。
拡張一般化のための勾配を暗黙的に正規化するが、知識を保持するために微調整されたモデルや事前訓練されたモデルも暗黙的に整列する。
また、テキスト分類(GLUE)や数学的推論においてLoRAを改善している。
論文 参考訳(メタデータ) (2024-09-25T17:56:00Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Improve Noise Tolerance of Robust Loss via Noise-Awareness [60.34670515595074]
本稿では,NARL-Adjuster(NARL-Adjuster for brevity)と呼ばれる,ハイパーパラメータ予測関数を適応的に学習するメタラーニング手法を提案する。
4つのSOTAロバストな損失関数を我々のアルゴリズムに統合し,提案手法の一般性および性能をノイズ耐性と性能の両面で検証した。
論文 参考訳(メタデータ) (2023-01-18T04:54:58Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。