論文の概要: Efficient Hyperparameter Optimization for LLM Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.03073v1
- Date: Tue, 02 Jun 2026 03:02:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.714473
- Title: Efficient Hyperparameter Optimization for LLM Reinforcement Learning
- Title(参考訳): LLM強化学習のための効率的なハイパーパラメータ最適化
- Authors: Minping Chen, Bowen Xiao, Du Liang, Chuxuan Zeng, Zeyi Wen,
- Abstract要約: 大規模言語モデル(LLM)の強化学習は、ハイパーパラメータ設定に非常に敏感である。
既存のHPO法は、大規模モデルスケールと資源集約的なトレーニングサイクルのため、LLM RLでは非効率である。
本稿では,モデルサイズとトレーニング予算の両方を忠実度として同時に適応させるJF-HPO(Joint Fidelity Hyper Parameters Optimization)を提案する。
JF-HPOは、各トライアルの計算効率(最大14.9倍)を著しく改善し、同じ時間予算でより良いまたは競争的な予測精度を達成する。
- 参考スコア(独自算出の注目度): 9.333551082741506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) for large language models (LLMs) is highly sensitive to hyperparameter configurations, making hyperparameter optimization (HPO) essential yet computationally expensive. Existing multi-fidelity HPO methods remain inefficient for LLM RL due to the massive model scale and resource-intensive training cycles. In this paper, we propose Joint Fidelity Hyperparameter Optimization (JF-HPO), which simultaneously adapts both model size and training budget as fidelity. JF-HPO is empowered by: (i) it leverages a small proxy model of the target LLM for efficient training and evaluation in each HPO trial; (ii) it integrates carefully designed early-stopping strategies based on training dynamics; (iii) it introduces an efficient checkpointing mechanism to eliminate redundant computations. Compared with existing HPO methods, JF-HPO significantly improves the computational efficiency of each trial (up to 14.9 times), while achieving better or competitive predictive accuracy under the same time budget. Notably, compared with utilizing hyperparameter configurations from the VeRL Recipe, JF-HPO delivers performance improvements ranging from 5.8% to 111.6%.
- Abstract(参考訳): 大規模言語モデル(LLM)のための強化学習(RL)はハイパーパラメータ構成に非常に敏感であり、ハイパーパラメータ最適化(HPO)は必須だが計算コストがかかる。
既存のHPO法は、大規模モデルスケールと資源集約的なトレーニングサイクルのため、LLM RLでは非効率である。
本稿では,モデルサイズとトレーニング予算の両方を忠実度として同時に適応させるJF-HPO(Joint Fidelity Hyperparameter Optimization)を提案する。
JF-HPOには以下の権限がある。
目的LLMの小さなプロキシモデルを利用して,各HPO試験における効率的なトレーニングと評価を行う。
(II)訓練力学に基づく早期学習戦略を慎重に設計した。
第三に、冗長な計算をなくすための効率的なチェックポインティング機構を導入する。
既存のHPO法と比較すると、JF-HPOは各試行の計算効率(最大14.9倍)を著しく改善し、同じ時間予算でより良いまたは競争的な予測精度を達成する。
特に、VeRLレシピのハイパーパラメータ構成を使用する場合と比較して、JF-HPOは5.8%から111.6%のパフォーマンス改善を提供している。
関連論文リスト
- QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs [80.76334908639745]
大規模言語モデル(LLM)のための量子化強化学習フレームワークQeRLを提案する。
QeRLは、NVFP4量子化とローランド適応(LoRA)を組み合わせた問題に対処する。
実験によると、QeRLはロールアウトフェーズで1.5倍以上のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-10-13T17:55:09Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - ULTHO: Ultra-Lightweight yet Efficient Hyperparameter Optimization in Deep Reinforcement Learning [50.53705050673944]
ULTHOは,1回の走行で深部RLで高速HPOを実現するための,超軽量で強力なフレームワークである。
具体的には、HPOプロセスは、クラスタ化されたアーム(MABC)を備えたマルチアームバンディットとして定式化し、それを長期の戻り値の最適化に直接リンクする。
ALE、Procgen、MiniGrid、PyBulletなどのベンチマークでULTHOをテストする。
論文 参考訳(メタデータ) (2025-03-08T07:03:43Z) - Grouped Sequential Optimization Strategy -- the Application of Hyperparameter Importance Assessment in Deep Learning [1.7778609937758323]
我々は「逐次グループ」と呼ばれる新しいHPO戦略を実装している
実験は,6つの画像分類データセットで検証され,ハイパーパラメータ重要度評価(HIA)を組み込むことで,モデル性能を損なうことなくHPOを大幅に加速することを示した。
論文 参考訳(メタデータ) (2025-03-07T03:01:00Z) - A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。
拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。
以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文 参考訳(メタデータ) (2025-03-02T13:43:53Z) - ARLBench: Flexible and Efficient Benchmarking for Hyperparameter Optimization in Reinforcement Learning [42.33815055388433]
ARLBenchは強化学習(RL)におけるハイパーパラメータ最適化(HPO)のベンチマークである
様々なHPOアプローチの比較が可能であり、高い効率で評価できる。
ARLBenchはAutoRLの研究のための効率的で柔軟性があり、未来志向の基盤である。
論文 参考訳(メタデータ) (2024-09-27T15:22:28Z) - Efficient Transformer-based Hyper-parameter Optimization for Resource-constrained IoT Environments [9.72257571115249]
本稿では,トランスフォーマーアーキテクチャとアクター批判型強化学習モデルTRL-HPOを組み合わせた新しいアプローチを提案する。
その結果、TRL-HPOはこれらの手法の分類結果を同時に6.8%上回る結果となった。
本稿では,資源制約環境下でのRLベースのHPOプロセスを改善するための新しい方法について述べる。
論文 参考訳(メタデータ) (2024-03-18T20:35:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。