論文の概要: GRPOformer: Advancing Hyperparameter Optimization via Group Relative Policy Optimization
- arxiv url: http://arxiv.org/abs/2509.17105v1
- Date: Sun, 21 Sep 2025 14:54:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.119761
- Title: GRPOformer: Advancing Hyperparameter Optimization via Group Relative Policy Optimization
- Title(参考訳): GRPOformer: Group Relative Policy Optimizationによるハイパーパラメータ最適化の改善
- Authors: Haoxin Guo, Jiawen Pan, Weixin Zhai,
- Abstract要約: 本稿では、強化学習(RL)とトランスフォーマーを統合する新しいフレームワークを提案する。
GRPOformerでは、トランスフォーマーを使用して、過去の最適化軌道から新しいハイパーパラメータ構成を生成する。
また、GRPOトレーニングの安定性を高めるために、PCR(Policy Churn Regularization)を導入する。
- 参考スコア(独自算出の注目度): 1.6759048077528458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hyperparameter optimization (HPO) plays a critical role in improving model performance. Transformer-based HPO methods have shown great potential; however, existing approaches rely heavily on large-scale historical optimization trajectories and lack effective reinforcement learning (RL) techniques, thereby limiting their efficiency and performance improvements. Inspired by the success of Group Relative Policy Optimization (GRPO) in large language models (LLMs), we propose GRPOformer -- a novel hyperparameter optimization framework that integrates reinforcement learning (RL) with Transformers. In GRPOformer, Transformers are employed to generate new hyperparameter configurations from historical optimization trajectories, while GRPO enables rapid trajectory construction and optimization strategy learning from scratch. Moreover, we introduce Policy Churn Regularization (PCR) to enhance the stability of GRPO training. Experimental results on OpenML demonstrate that GRPOformer consistently outperforms baseline methods across diverse tasks, offering new insights into the application of RL for HPO.
- Abstract(参考訳): ハイパーパラメータ最適化(HPO)はモデルの性能向上に重要な役割を果たす。
トランスフォーマーに基づくHPO法は大きな可能性を示しているが、既存の手法は大規模な歴史的最適化軌道に大きく依存しており、効果的な強化学習(RL)技術が欠如しているため、効率と性能の向上が制限されている。
大規模言語モデル (LLMs) におけるグループ相対ポリシー最適化 (GRPO) の成功に触発されて, 強化学習 (RL) と変換器を統合する新しいハイパーパラメータ最適化フレームワーク GRPOformer を提案する。
GRPOformerでは、トランスフォーマーを使用して、過去の最適化軌道から新しいハイパーパラメータ構成を生成する一方、GRPOは高速な軌道構築と最適化戦略をスクラッチから学習することができる。
さらに、GRPOトレーニングの安定性を高めるために、PCR(Policy Churn Regularization)を導入する。
OpenMLの実験結果によると、GRPOformerはさまざまなタスクにまたがるベースラインメソッドを一貫して上回り、HPOへのRLの適用に関する新たな洞察を提供する。
関連論文リスト
- Group Sequence Policy Optimization [55.40088895148603]
Group Sequence Policy Optimization (GSPO) は、安定的で効率的でパフォーマンスの高い強化学習アルゴリズムである。
GSPOは、シーケンスの確率に基づいて重要度を定義し、シーケンスレベルのクリッピング、報酬、最適化を行う。
論文 参考訳(メタデータ) (2025-07-24T03:50:32Z) - VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization [59.39976343879587]
VerIPOは、深く長期的な推論チェーンを生成するためのビデオLLMの能力を徐々に改善することを目指している。
トレーニングループはGRPOの拡張検索とDPOのターゲット最適化の恩恵を受けている。
我々の訓練されたモデルは、大規模命令調整ビデオ-LLMの直接推定を超えている。
論文 参考訳(メタデータ) (2025-05-25T06:41:28Z) - GAAPO: Genetic Algorithmic Applied to Prompt Optimization [0.0]
大規模言語モデル(LLM)は様々なタスクにまたがって顕著な能力を示しており、その性能は入力プロンプトの品質に大きく依存している。
迅速なエンジニアリングは有効であると証明されているが、通常は手動による調整に依存しており、時間を要するため、潜在的に最適ではない。
本稿では,代々のプロンプトを進化させるために遺伝的原理を活用するハイブリッド最適化フレームワークであるPrompt Optimizationに応用したジェネティックアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-09T11:19:42Z) - Hybrid Group Relative Policy Optimization: A Multi-Sample Approach to Enhancing Policy Optimization [0.0]
Hybrid Group Relative Policy Optimization (Hybrid GRPO)は強化学習フレームワークである。
価値関数に基づく学習の安定性を維持しつつ、実証的なマルチサンプル動作評価を取り入れている。
構造化された経験的サンプリングと強化学習安定性機構を統合することで、Hybrid GRPOは自律ロボット工学、金融モデリング、AI駆動制御システムに潜在的に応用できる。
論文 参考訳(メタデータ) (2025-01-30T21:04:01Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。
実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文 参考訳(メタデータ) (2022-05-26T12:51:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。