論文の概要: READY: Reward Discovery for Meta-Black-Box Optimization
- arxiv url: http://arxiv.org/abs/2601.21847v1
- Date: Thu, 29 Jan 2026 15:23:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.933417
- Title: READY: Reward Discovery for Meta-Black-Box Optimization
- Title(参考訳): READY: メタブラックボックス最適化のためのリワードディスカバリ
- Authors: Zechuan Huang, Zhiguang Cao, Hongshu Guo, Yue-Jiao Gong, Zeyuan Ma,
- Abstract要約: メタBBOの自動報酬発見ツールとして,Large Language Model (LLM) を用いる。
また,多様なMetaBBOアプローチに対する並列報酬発見を支援するマルチタスク進化アーキテクチャについても紹介する。
- 参考スコア(独自算出の注目度): 38.27552012808326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Meta-Black-Box Optimization (MetaBBO) is an emerging avenue within Optimization community, where algorithm design policy could be meta-learned by reinforcement learning to enhance optimization performance. So far, the reward functions in existing MetaBBO works are designed by human experts, introducing certain design bias and risks of reward hacking. In this paper, we use Large Language Model~(LLM) as an automated reward discovery tool for MetaBBO. Specifically, we consider both effectiveness and efficiency sides. On effectiveness side, we borrow the idea of evolution of heuristics, introducing tailored evolution paradigm in the iterative LLM-based program search process, which ensures continuous improvement. On efficiency side, we additionally introduce multi-task evolution architecture to support parallel reward discovery for diverse MetaBBO approaches. Such parallel process also benefits from knowledge sharing across tasks to accelerate convergence. Empirical results demonstrate that the reward functions discovered by our approach could be helpful for boosting existing MetaBBO works, underscoring the importance of reward design in MetaBBO. We provide READY's project at https://anonymous.4open.science/r/ICML_READY-747F.
- Abstract(参考訳): Meta-Black-Box Optimization(メタブラックボックス最適化、MetaBBO)は、アルゴリズム設計ポリシーを強化学習によってメタ学習し、最適化性能を向上させる方法である。
これまでのMetaBBOの報酬機能は、人間の専門家によって設計されており、特定の設計バイアスと報酬ハッキングのリスクを導入している。
本稿では,メタBBOの自動報酬発見ツールとしてLarge Language Model~(LLM)を用いる。
具体的には、有効性と効率の両面を考察する。
有効性面では、ヒューリスティックスの進化という概念を借用し、反復的なLCMベースのプログラム探索プロセスに最適化された進化パラダイムを導入し、継続的な改善を確実にする。
効率面では、多様なMetaBBOアプローチに対する並列報酬発見をサポートするマルチタスク進化アーキテクチャも導入する。
このような並列プロセスは、収束を加速するためにタスク間の知識共有の恩恵を受ける。
提案手法により得られた報酬関数は,MetaBBOにおける報酬設計の重要性を浮き彫りにして,既存のMetaBBO作品の強化に有効であることを示す。
我々はREADYのプロジェクトをhttps://anonymous.4open.science/r/ICML_READY-747Fで提供します。
関連論文リスト
- Toward Automated Algorithm Design: A Survey and Practical Guide to Meta-Black-Box-Optimization [22.902923118981857]
進化計算(EC)コミュニティの新たな道としてメタブラックボックス最適化(MetaBBO)を導入する。
MetaBBOの成功にもかかわらず、現在の文献は主要な側面の要約が不十分であり、実装に関する実践的なガイダンスが欠如している。
論文 参考訳(メタデータ) (2024-11-01T14:32:19Z) - Neural Exploratory Landscape Analysis for Meta-Black-Box-Optimization [12.6318861144205]
本稿では,2段階の注目型ニューラルネットワークを用いてランドスケープの特徴を動的にプロファイリングする新しいフレームワークを提案する。
NeurELAは、マルチタスクの神経進化戦略を用いて、様々なMetaBBOアルゴリズム上で事前訓練されている。
実験によると、NeurELAは異なるMetaBBOタスクに統合された場合、一貫して優れたパフォーマンスを発揮する。
論文 参考訳(メタデータ) (2024-08-20T09:17:11Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Bootstrapped Meta-Learning [48.017607959109924]
本稿では,メタ学習者が自らを教えることによって,メタ最適化問題に挑戦するアルゴリズムを提案する。
アルゴリズムはまずメタラーナーからターゲットをブートストラップし、選択した(擬似)測度の下でそのターゲットまでの距離を最小化することでメタラーナーを最適化する。
我々は、Atari ALEベンチマークでモデルフリーエージェントの新たな最先端技術を実現し、数ショットの学習においてMAMLを改善し、我々のアプローチがいかに新しい可能性を開くかを実証する。
論文 参考訳(メタデータ) (2021-09-09T18:29:05Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z) - HMRL: Hyper-Meta Learning for Sparse Reward Reinforcement Learning
Problem [107.52043871875898]
スパース報酬RL問題のためのメタ強化学習フレームワークHyper-Meta RL(HMRL)を開発した。
異なる環境に適応するために共通のメタ状態空間を構築するクロス環境メタ状態埋め込みモジュールを含む3つのモジュールで構成されている。
スパース・リワード環境を用いた実験は、伝達性および政策学習効率の両方においてHMRLの優位性を示す。
論文 参考訳(メタデータ) (2020-02-11T07:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。