論文の概要: Sequential Policy Gradient for Adaptive Hyperparameter Optimization
- arxiv url: http://arxiv.org/abs/2506.15051v1
- Date: Wed, 18 Jun 2025 01:21:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.516863
- Title: Sequential Policy Gradient for Adaptive Hyperparameter Optimization
- Title(参考訳): 適応型ハイパーパラメータ最適化のための逐次ポリシー勾配
- Authors: Zheng Li, Jerry Cheng, Huanying Helen Gu,
- Abstract要約: 本稿では,軽量オンラインハイパーパラメータ最適化のための新しいトラジェクトリ生成パラダイムである逐次ポリシーグラディエント・モデリング(SPG)を提案する。
SPGは、一時的なモジュールでベースモデルを拡張し、単一のフォワードパスでステートアクション(パッド付き)トラジェクトリを生成する。
実験により,SPGを用いて元のデータセットで再トレーニングすると,モデルの性能が向上し,標準転送の微調整性能も向上することを示した。
- 参考スコア(独自算出の注目度): 6.031164586412059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning is essential for neural architecture search and hyperparameter optimization, but the conventional approaches impede widespread use due to prohibitive time and computational costs. Inspired by DeepSeek-V3 multi-token prediction architecture, we propose Sequential Policy Gradient modeling (SPG), a novel trajectory generation paradigm for lightweight online hyperparameter optimization. In contrast to conventional policy gradient methods, SPG extends the base model with temporary modules, enabling it to generate state-action (padded) trajectories in a single forward pass. Our experiments demonstrate that models gain performance when retrained with SPG on their original datasets and also outperform standard transfer fine-tuning. We evaluate on five datasets spanning computer vision (ImageNet, COCO), natural language processing (GLUE, SQuAD), and audio (SUPERB) to assess the industrial applicability of SPG. The proposed method demonstrates consistent improvements across widely adopted models, achieving performance gains of $+0.2\sim7\%$, with significantly low computational costs. Fully reproducible code and pre-trained models: https://huggingface.co/UniversalAlgorithmic/SPG.
- Abstract(参考訳): 強化学習はニューラルアーキテクチャの探索とハイパーパラメータ最適化に不可欠であるが、従来の手法は時間と計算コストの禁止のために広く使われることを妨げている。
DeepSeek-V3マルチトークン予測アーキテクチャにインスパイアされた我々は、軽量なオンラインハイパーパラメータ最適化のための新しいトラジェクトリ生成パラダイムである逐次ポリシー勾配モデリング(SPG)を提案する。
従来の方針勾配法とは対照的に、SPGは基本モデルを一時的なモジュールで拡張し、単一の前方通過で状態作用(パッド付き)軌道を生成する。
実験により,SPGを用いて元のデータセットで再トレーニングすると,モデルの性能が向上し,標準転送の微調整性能も向上することを示した。
我々は、コンピュータビジョン(ImageNet, COCO)、自然言語処理(GLUE, SQuAD)、音声(SUPERB)の5つのデータセットを評価し、SPGの産業応用性を評価する。
提案手法は、広く採用されているモデル間で一貫した改善を示し、計算コストが大幅に低い$+0.2\sim7\%の性能向上を実現している。
完全な再現可能なコードと事前訓練されたモデル:https://huggingface.co/UniversalAlgorithmic/SPG。
関連論文リスト
- Instruction-Guided Autoregressive Neural Network Parameter Generation [49.800239140036496]
本稿では,多種多様なタスクやアーキテクチャにまたがるパラメータ合成を統一する自動回帰フレームワークIGPGを提案する。
ニューラルネットワーク重みのトークンを自動回帰的に生成することにより、IGPGは層間コヒーレンスを確保し、モデルとデータセット間の効率的な適応を可能にする。
複数のデータセットの実験により、IGPGは様々な事前訓練されたモデルを単一の柔軟な生成フレームワークに統合することを示した。
論文 参考訳(メタデータ) (2025-04-02T05:50:19Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - Optimization of geological carbon storage operations with multimodal latent dynamic model and deep reinforcement learning [1.8549313085249324]
本稿では,高速フロー予測とGCSの制御最適化のためのディープラーニングフレームワークであるMLDモデルを紹介する。
既存のモデルとは異なり、MDDは多様な入力モダリティをサポートし、包括的なデータインタラクションを可能にする。
この手法は従来の手法よりも優れており、計算資源を60%以上削減し、最も高いNPVを達成する。
論文 参考訳(メタデータ) (2024-06-07T01:30:21Z) - Edge-Efficient Deep Learning Models for Automatic Modulation Classification: A Performance Analysis [0.7428236410246183]
無線信号の自動変調分類(AMC)のための最適化畳み込みニューラルネットワーク(CNN)について検討した。
本稿では,これらの手法を組み合わせて最適化モデルを提案する。
実験結果から,提案手法と組み合わせ最適化手法は,複雑度が著しく低いモデルの開発に極めて有効であることが示唆された。
論文 参考訳(メタデータ) (2024-04-11T06:08:23Z) - Model Performance Prediction for Hyperparameter Optimization of Deep
Learning Models Using High Performance Computing and Quantum Annealing [0.0]
モデル性能予測を早期停止法と組み合わせることで,ディープラーニングモデルのHPOプロセスの高速化が期待できることを示す。
我々は,古典的あるいは量子的サポートベクター回帰を性能予測に用いるSwift-Hyperbandと呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-29T10:32:40Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - A Graph Deep Learning Framework for High-Level Synthesis Design Space
Exploration [11.154086943903696]
High-Level Synthesisは、アプリケーション固有の高速プロトタイピングのためのソリューションである。
本稿では,加速性能とハードウェアコストを共同で予測するグラフニューラルネットワークHLSを提案する。
提案手法は,一般的なシミュレータと同等の精度で予測できることを示す。
論文 参考訳(メタデータ) (2021-11-29T18:17:45Z) - ParticleAugment: Sampling-Based Data Augmentation [80.44268663372233]
モデルトレーニング中に最適な拡張ポリシーとスケジュールを求めるために,粒子フィルタリングの定式化を提案する。
CIFAR-10, CIFAR-100, ImageNetデータセットにおいて, 自動拡張のための定式化が有望な結果に達することを示す。
論文 参考訳(メタデータ) (2021-06-16T10:56:02Z) - Enhanced data efficiency using deep neural networks and Gaussian
processes for aerodynamic design optimization [0.0]
随伴型最適化法は空気力学的形状設計において魅力的である。
複数の最適化問題が解決されている場合、それらは違法に高価になる可能性がある。
本稿では,高コストな随伴解法に取って代わる機械学習を実現するサロゲートベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-15T15:09:21Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。