論文の概要: Meta-Black-Box-Optimization through Offline Q-function Learning
- arxiv url: http://arxiv.org/abs/2505.02010v1
- Date: Sun, 04 May 2025 06:41:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.377217
- Title: Meta-Black-Box-Optimization through Offline Q-function Learning
- Title(参考訳): オフラインQ関数学習によるメタブラックボックス最適化
- Authors: Zeyuan Ma, Zhiguang Cao, Zhou Jiang, Hongshu Guo, Yue-Jiao Gong,
- Abstract要約: オフライン学習ベースのMetaBBOフレームワークであるQ-Mambaを提案し,MetaBBOの有効性と効率性を両立させる。
そこで本研究では,オフラインデータからメタ学習型DACポリシーを提案する。
Q-Mambaは、以前のオンライン/オフラインベースラインよりも、競争力やパフォーマンスに優れています。
- 参考スコア(独自算出の注目度): 17.565058993388707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in Meta-Black-Box-Optimization (MetaBBO) has demonstrated that using RL to learn a meta-level policy for dynamic algorithm configuration (DAC) over an optimization task distribution could significantly enhance the performance of the low-level BBO algorithm. However, the online learning paradigms in existing works makes the efficiency of MetaBBO problematic. To address this, we propose an offline learning-based MetaBBO framework in this paper, termed Q-Mamba, to attain both effectiveness and efficiency in MetaBBO. Specifically, we first transform DAC task into long-sequence decision process. This allows us further introduce an effective Q-function decomposition mechanism to reduce the learning difficulty within the intricate algorithm configuration space. Under this setting, we propose three novel designs to meta-learn DAC policy from offline data: we first propose a novel collection strategy for constructing offline DAC experiences dataset with balanced exploration and exploitation. We then establish a decomposition-based Q-loss that incorporates conservative Q-learning to promote stable offline learning from the offline dataset. To further improve the offline learning efficiency, we equip our work with a Mamba architecture which helps long-sequence learning effectiveness and efficiency by selective state model and hardware-aware parallel scan respectively. Through extensive benchmarking, we observe that Q-Mamba achieves competitive or even superior performance to prior online/offline baselines, while significantly improving the training efficiency of existing online baselines. We provide sourcecodes of Q-Mamba at https://github.com/MetaEvo/Q-Mamba.
- Abstract(参考訳): Meta-Black-Box-Optimization (MetaBBO) の最近の進歩は、RLを用いて最適化タスク分布上での動的アルゴリズム構成(DAC)のメタレベルポリシーを学習することにより、低レベルBBOアルゴリズムの性能を大幅に向上させることを示した。
しかし、既存の研究におけるオンライン学習パラダイムはMetaBBOの効率を問題にしている。
そこで本稿では,Q-Mambaと呼ばれるオフライン学習ベースのMetaBBOフレームワークを提案し,MetaBBOの有効性と効率性を両立させる。
具体的には、まずDACタスクを時系列決定プロセスに変換する。
これにより、複雑なアルゴリズム構成空間内での学習困難を軽減するため、有効なQ関数分解機構をさらに導入できる。
本稿では、オフラインデータからメタ学習DACポリシーを抽出する新しい3つの設計を提案し、まず、オフラインDACエクスペリエンスデータセットを構築するための新しいコレクション戦略を提案する。
次に、保守的なQ-ラーニングを取り入れた分解ベースのQ-ロスを確立し、オフラインデータセットから安定したオフライン学習を促進する。
オフライン学習の効率をさらに向上するため,我々は,選択状態モデルとハードウェア対応並列スキャンにより,長期学習の有効性と効率を向上させるMambaアーキテクチャを用いて作業を行っている。
大規模なベンチマークによって,Q-Mambaは,既存のオンラインベースラインのトレーニング効率を大幅に向上しつつ,以前のオンライン/オフラインベースラインと比較して,競争力や優れたパフォーマンスを実現していることがわかった。
https://github.com/MetaEvo/Q-MambaでQ-Mambaのソースコードを提供する。
関連論文リスト
- Reinforcement Learning-based Self-adaptive Differential Evolution through Automated Landscape Feature Learning [7.765689048808507]
本稿ではメタ学習過程における自動特徴学習を支援するメタBBO手法を提案する。
我々は,マティーサ指数に基づく埋め込みを用いたアテンションベースニューラルネットワークを設計し,解人口を変換する。
また、多種多様なDEM演算子を含む包括的アルゴリズム構成空間を強化学習支援DACパラダイムに組み込む。
論文 参考訳(メタデータ) (2025-03-23T13:07:57Z) - Surrogate Learning in Meta-Black-Box Optimization: A Preliminary Study [23.31374095085009]
本稿では,代用学習プロセスと強化学習支援微分進化アルゴリズムを組み合わせたMetaBBOフレームワークを提案する。
Surr-RLDEは、サロゲート学習とポリシー学習の2つの学習段階から構成される。
本稿では,Surr-RLDEが最近のベースラインと競合する性能を示すだけでなく,高次元問題に対する魅力的な一般化を示すことを示す。
論文 参考訳(メタデータ) (2025-03-23T13:07:57Z) - Toward Automated Algorithm Design: A Survey and Practical Guide to Meta-Black-Box-Optimization [22.902923118981857]
進化計算(EC)コミュニティの新たな道としてメタブラックボックス最適化(MetaBBO)を導入する。
MetaBBOの成功にもかかわらず、現在の文献は主要な側面の要約が不十分であり、実装に関する実践的なガイダンスが欠如している。
論文 参考訳(メタデータ) (2024-11-01T14:32:19Z) - Reinforced In-Context Black-Box Optimization [64.25546325063272]
RIBBOは、オフラインデータからエンドツーエンドでBBOアルゴリズムを強化学習する手法である。
RIBBOは、複数の動作アルゴリズムとタスクによって生成される最適化履歴を学習するために、表現的なシーケンスモデルを使用している。
提案手法の中心となるのは,テキストレグレット・ツー・ゴートークンによる最適化履歴の増大である。
論文 参考訳(メタデータ) (2024-02-27T11:32:14Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Improved Context-Based Offline Meta-RL with Attention and Contrastive
Learning [1.3106063755117399]
SOTA OMRLアルゴリズムの1つであるFOCALを、タスク内注意メカニズムとタスク間コントラスト学習目標を組み込むことで改善します。
理論解析と実験を行い、エンドツーエンドおよびモデルフリーの優れた性能、効率、堅牢性を実証します。
論文 参考訳(メタデータ) (2021-02-22T05:05:16Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z) - Offline Meta-Reinforcement Learning with Advantage Weighting [125.21298190780259]
本稿では,オフラインメタ強化学習(オフラインメタRL)問題設定を導入し,この設定でよく機能するアルゴリズムを提案する。
オフラインメタRLは、修正済みデータの大規模なバッチ上でモデルを事前学習する、広く成功した教師付き学習戦略に類似している。
本稿では,メタトレーニングの内ループと外ループの両方に対して,シンプルかつ教師付き回帰目標を用いた最適化に基づくメタ学習アルゴリズムである,アドバンテージ重み付きメタアクタ批判(MACAW)を提案する。
論文 参考訳(メタデータ) (2020-08-13T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。