論文の概要: EARL-BO: Reinforcement Learning for Multi-Step Lookahead, High-Dimensional Bayesian Optimization
- arxiv url: http://arxiv.org/abs/2411.00171v1
- Date: Thu, 31 Oct 2024 19:33:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 21:27:50.703567
- Title: EARL-BO: Reinforcement Learning for Multi-Step Lookahead, High-Dimensional Bayesian Optimization
- Title(参考訳): EARL-BO:マルチステップルックアヘッド高次元ベイズ最適化のための強化学習
- Authors: Mujin Cheon, Jay H. Lee, Dong-Yeun Koh, Calvin Tsay,
- Abstract要約: 本稿では,高次元ブラックボックス最適化問題におけるマルチステップルックアヘッドBOのための新しい強化学習(RL)フレームワークを提案する。
まず、RLエージェントに知識の状態を表現し、初期訓練を加速するために、政治以外の学習を取り入れたアテンション・ディープセット・エンコーダを紹介する。
次に、エンドツーエンド(エンコーダRL)の政治学習に基づくマルチタスクの微調整手順を評価する。
- 参考スコア(独自算出の注目度): 1.8655559150764562
- License:
- Abstract: Conventional methods for Bayesian optimization (BO) primarily involve one-step optimal decisions (e.g., maximizing expected improvement of the next step). To avoid myopic behavior, multi-step lookahead BO algorithms such as rollout strategies consider the sequential decision-making nature of BO, i.e., as a stochastic dynamic programming (SDP) problem, demonstrating promising results in recent years. However, owing to the curse of dimensionality, most of these methods make significant approximations or suffer scalability issues, e.g., being limited to two-step lookahead. This paper presents a novel reinforcement learning (RL)-based framework for multi-step lookahead BO in high-dimensional black-box optimization problems. The proposed method enhances the scalability and decision-making quality of multi-step lookahead BO by efficiently solving the SDP of the BO process in a near-optimal manner using RL. We first introduce an Attention-DeepSets encoder to represent the state of knowledge to the RL agent and employ off-policy learning to accelerate its initial training. We then propose a multi-task, fine-tuning procedure based on end-to-end (encoder-RL) on-policy learning. We evaluate the proposed method, EARL-BO (Encoder Augmented RL for Bayesian Optimization), on both synthetic benchmark functions and real-world hyperparameter optimization problems, demonstrating significantly improved performance compared to existing multi-step lookahead and high-dimensional BO methods.
- Abstract(参考訳): ベイズ最適化(BO)の従来の手法は、主に1ステップの最適決定(例えば、次のステップの期待された改善を最大化する)を含む。
筋活動を避けるために、ロールアウト戦略のような多段階のBOアルゴリズムはBOのシーケンシャルな決定性、すなわち確率動的プログラミング(SDP)問題を考え、近年の有望な結果を実証している。
しかし、次元性の呪いのため、これらの手法の多くは大きな近似を行い、例えば2段階のルックアヘッドに制限されているスケーラビリティの問題に悩まされている。
本稿では,高次元ブラックボックス最適化問題におけるマルチステップルックアヘッドBOのための新しい強化学習(RL)フレームワークを提案する。
提案手法は,RLを用いてBOプロセスのSDPを最適に近い方法で効率よく解き,多段ルックアヘッドBOのスケーラビリティと意思決定品質を向上させる。
まず、RLエージェントに知識の状態を表現し、初期訓練を加速するために、政治以外の学習を取り入れたアテンション・ディープセット・エンコーダを紹介する。
次に、エンドツーエンド(エンコーダ-RL)の政治学習に基づくマルチタスクの微調整手順を提案する。
提案手法であるEARL-BO (Encoder Augmented RL for Bayesian Optimization) を,合成ベンチマーク関数と実世界のハイパーパラメータ最適化問題の両方で評価し,既存のマルチステップルックアヘッド法と高次元BO法と比較して性能を著しく向上したことを示す。
関連論文リスト
- Accelerated Preference Optimization for Large Language Model Alignment [60.22606527763201]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なツールとして登場した。
直接選好最適化(DPO)は、報酬関数を明示的に見積もることなく、ポリシー最適化問題としてRLHFを定式化する。
本稿では,既存の最適化アルゴリズムを統一したAPO(Accelerated Preference Optimization)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T18:51:01Z) - Reinforced In-Context Black-Box Optimization [64.25546325063272]
RIBBOは、オフラインデータからエンドツーエンドでBBOアルゴリズムを強化学習する手法である。
RIBBOは、複数の動作アルゴリズムとタスクによって生成される最適化履歴を学習するために、表現的なシーケンスモデルを使用している。
提案手法の中心となるのは,テキストレグレット・ツー・ゴートークンによる最適化履歴の増大である。
論文 参考訳(メタデータ) (2024-02-27T11:32:14Z) - End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - Poisson Process for Bayesian Optimization [126.51200593377739]
本稿では、Poissonプロセスに基づくランキングベースの代理モデルを提案し、Poisson Process Bayesian Optimization(PoPBO)と呼ばれる効率的なBOフレームワークを提案する。
従来のGP-BO法と比較すると,PoPBOはコストが低く,騒音に対する堅牢性も良好であり,十分な実験により検証できる。
論文 参考訳(メタデータ) (2024-02-05T02:54:50Z) - Neuromorphic Bayesian Optimization in Lava [0.0]
オープンソースのLava Software Frameworkへのコントリビューションとして、Lava Bayesian Optimization (LavaBO)を紹介します。
LavaBOは、異種できめ細かな並列なインメモリニューロモルフィックコンピューティングアーキテクチャと互換性のあるBOシステムを開発するための最初のステップである。
バックプロパゲーションや進化学習を通じて、最先端のスパイクニューラルネットワークを訓練するといった複数の問題に対して、LavaBOシステムのアルゴリズム性能を評価する。
論文 参考訳(メタデータ) (2023-05-18T15:54:23Z) - BOME! Bilevel Optimization Made Easy: A Simple First-Order Approach [46.457298683984924]
バイレベル最適化(BO)は、さまざまな機械学習問題を解決するのに有用である。
従来の手法では、暗黙の微分を伴う低レベル最適化プロセスを通じて差別化する必要がある。
一階BOは一階情報にのみ依存し、暗黙の微分を必要としない。
論文 参考訳(メタデータ) (2022-09-19T01:51:12Z) - Multi-Agent Deep Reinforcement Learning in Vehicular OCC [14.685237010856953]
我々は車載OCCにおけるスペクトル効率最適化手法を提案する。
我々は最適化問題をマルコフ決定プロセス(MDP)としてモデル化し、オンラインで適用可能なソリューションの利用を可能にする。
提案手法の性能を広範囲なシミュレーションにより検証し,提案手法の様々な変種とランダムな手法との比較を行った。
論文 参考訳(メタデータ) (2022-05-05T14:25:54Z) - Teaching Networks to Solve Optimization Problems [13.803078209630444]
反復解法をトレーニング可能なパラメトリック集合関数に置き換えることを提案する。
このようなパラメトリックな(集合)関数を学習することで、様々な古典的最適化問題を解くことができることを示す。
論文 参考訳(メタデータ) (2022-02-08T19:13:13Z) - ES-Based Jacobian Enables Faster Bilevel Optimization [53.675623215542515]
バイレベル最適化(BO)は多くの現代の機械学習問題を解決する強力なツールとして生まれてきた。
既存の勾配法では、ヤコビアンあるいはヘッセンベクトル計算による二階微分近似が必要となる。
本稿では,進化戦略(ES)に基づく新しいBOアルゴリズムを提案し,BOの過勾配における応答ヤコビ行列を近似する。
論文 参考訳(メタデータ) (2021-10-13T19:36:50Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Efficient Nonmyopic Bayesian Optimization via One-Shot Multi-Step Trees [28.46586066038317]
一般的なマルチステップ・ルック・ベイズ最適化の最初の効率的な実装を提供する。
これらの問題をネストした方法で解決する代わりに、全木のすべての決定変数を同等に最適化します。
提案手法は,様々なベンチマークにおいて,既存の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-06-29T02:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。