論文の概要: Efficient Hyperparameter Tuning via Trajectory Invariance Principle
- arxiv url: http://arxiv.org/abs/2509.25049v1
- Date: Mon, 29 Sep 2025 17:01:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.14831
- Title: Efficient Hyperparameter Tuning via Trajectory Invariance Principle
- Title(参考訳): 軌道不変原理による効率的なハイパーパラメータチューニング
- Authors: Bingrui Li, Jiaxin Wen, Zhanpeng Zhou, Jun Zhu, Jianfei Chen,
- Abstract要約: 学習速度と重み減衰を組み合わせた量に関して, 学習前損失曲線, 勾配雑音, 勾配ノルムがほぼ重なり合う, トラジェクトリ不変(trajectory invariance)と呼ばれる現象を同定する。
この現象は、元の2次元のハイパーパラメータ空間を1次元に効果的に還元し、効率的なチューニング規則をもたらす。
全体として,本研究は,効率的なチューニングのための新しい原則を提案し,スケーリング法則に関する今後の研究を刺激するものである。
- 参考スコア(独自算出の注目度): 35.90572735438328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As hyperparameter tuning becomes increasingly costly at scale, efficient tuning methods are essential. Yet principles for guiding hyperparameter tuning remain limited. In this work, we seek to establish such principles by considering a broad range of hyperparameters, including batch size, learning rate, and weight decay. We identify a phenomenon we call trajectory invariance, where pre-training loss curves, gradient noise, and gradient norm exhibit invariance--closely overlapping--with respect to a quantity that combines learning rate and weight decay. This phenomenon effectively reduces the original two-dimensional hyperparameter space to one dimension, yielding an efficient tuning rule: follow the salient direction revealed by trajectory invariance. Furthermore, we refine previous scaling laws and challenge several existing viewpoints. Overall, our work proposes new principles for efficient tuning and inspires future research on scaling laws.
- Abstract(参考訳): ハイパーパラメータチューニングが大規模化するにつれ,効率的なチューニング手法が不可欠である。
しかし、ハイパーパラメータチューニングを導くための原則は依然として限られている。
本研究では,バッチサイズ,学習速度,体重減少など,幅広いハイパーパラメータを考慮し,そのような原理の確立を目指す。
学習速度と重み減衰を組み合わせた量に関して, 学習前損失曲線, 勾配雑音, 勾配ノルムがほぼ重なり合う, トラジェクトリ不変(trajectory invariance)と呼ばれる現象を同定する。
この現象は、もともとの2次元のハイパーパラメータ空間を1次元に効果的に還元し、効率的なチューニング規則を与える。
さらに、従来のスケーリング法則を洗練し、いくつかの既存の視点に挑戦する。
全体として,本研究は,効率的なチューニングのための新しい原則を提案し,スケーリング法則に関する今後の研究を刺激するものである。
関連論文リスト
- Hyperparameter Trajectory Inference with Conditional Lagrangian Optimal Transport [51.56484100374058]
デプロイ後、ユーザの好みが進化し、初期設定が望ましくないようになる。
我々は、観測データから、NNの条件付き出力分布がハイパーパラメータでどのように変化するかを学ぶ。
我々は、NNを観測されていないハイパーパラメータで近似する代理モデルを構築した。
論文 参考訳(メタデータ) (2026-03-02T11:55:02Z) - Weight Updates as Activation Shifts: A Principled Framework for Steering [54.70188910511715]
アクティベーションステアリングは極めてパラメータ効率のよい適応形態となるが、その有効性は重要な設計選択に依存する。
我々は,活性化空間介入と重量空間更新の1次等価性を確立し,活性化ステアリングが微調整動作を再現できる条件を導出する。
この等価性は、設計をステアリングするための原則的な枠組みをもたらし、ポストブロック出力を理論的に支持され、非常に表現力のある介入サイトとして特定する。
論文 参考訳(メタデータ) (2026-02-28T02:50:04Z) - High-Rank Structured Modulation for Parameter-Efficient Fine-Tuning [57.85676271833619]
低ランク適応 (LoRA) は、全パラメータの微調整をシミュレートするために低ランク更新法を用いる。
textbfStructured textbfMOdulation textbfAdapterは、より高いランクを維持しながらトレーニング可能なパラメータを少なくする。
論文 参考訳(メタデータ) (2026-01-12T13:06:17Z) - Allocation of Parameters in Transformers [31.7433692306049]
モデルパラメーター(主に注意頭と頭部次元)が、表現性と効率のバランスをとるために層全体にどのように配置されるべきかを検討する。
ソフトマックスアクティベーションのエンハンサレーション挙動を理論と実験の両方で実証する。
本稿では,トランスフォーマー層にまたがるアテンションヘッドと次元を割り当てるための基本戦略を提案する。
論文 参考訳(メタデータ) (2025-10-04T11:22:16Z) - Weight Spectra Induced Efficient Model Adaptation [54.8615621415845]
微調整された大規模な基礎モデルは、計算コストを禁ずる。
微調整が最上位特異値を大きく増幅する一方で,残りはほとんど無傷であることを示す。
本稿では,トップ特異方向の学習可能な再スケーリングを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T05:03:29Z) - PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization [35.922096876707975]
PACE は PArameter- efficient fine-tuning with Consistency rEgularization の一般化である。
拡張一般化のための勾配を暗黙的に正規化するが、知識を保持するために微調整されたモデルや事前訓練されたモデルも暗黙的に整列する。
また、テキスト分類(GLUE)や数学的推論においてLoRAを改善している。
論文 参考訳(メタデータ) (2024-09-25T17:56:00Z) - Propulsion: Steering LLM with Tiny Fine-Tuning [0.0]
本稿では,タスク固有性能を最適化するために,新しいパラメータ最適化手法であるPropulsionを提案する。
物理運動の制御調整の概念にインスパイアされた推進は、事前訓練されたモデルの特定の次元を選択的に再スケールする。
我々の理論解析はニューラル・タンジェント・カーネル(NTK)理論によって支えられ、推進は訓練可能なパラメータがはるかに少ない完全な微調整の性能を近似することを示している。
論文 参考訳(メタデータ) (2024-09-17T06:51:59Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Improve Noise Tolerance of Robust Loss via Noise-Awareness [60.34670515595074]
本稿では,NARL-Adjuster(NARL-Adjuster for brevity)と呼ばれる,ハイパーパラメータ予測関数を適応的に学習するメタラーニング手法を提案する。
4つのSOTAロバストな損失関数を我々のアルゴリズムに統合し,提案手法の一般性および性能をノイズ耐性と性能の両面で検証した。
論文 参考訳(メタデータ) (2023-01-18T04:54:58Z) - META-STORM: Generalized Fully-Adaptive Variance Reduced SGD for
Unbounded Functions [23.746620619512573]
最近の研究は「メガバッチ」の勾配を計算する効果を克服している
作業は、競争力のあるディープラーニングタスクで更新された後に広く使用される。
論文 参考訳(メタデータ) (2022-09-29T15:12:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。