論文の概要: Genetic multi-armed bandits: a reinforcement learning approach for
discrete optimization via simulation
- arxiv url: http://arxiv.org/abs/2302.07695v1
- Date: Wed, 15 Feb 2023 14:46:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-16 14:49:31.089942
- Title: Genetic multi-armed bandits: a reinforcement learning approach for
discrete optimization via simulation
- Title(参考訳): 遺伝的多腕バンディット:シミュレーションによる離散最適化のための強化学習手法
- Authors: Deniz Preil, Michael Krapp
- Abstract要約: 本稿では,マルチアームバンディットの強化学習領域とランダム検索戦略を組み合わせて,シミュレーションによる離散最適化問題の解法を提案する。
本研究の目的は,多腕バンディットの特性と遺伝的アルゴリズムの高次元解空間処理能力を組み合わせることである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a new algorithm, referred to as GMAB, that combines
concepts from the reinforcement learning domain of multi-armed bandits and
random search strategies from the domain of genetic algorithms to solve
discrete stochastic optimization problems via simulation. In particular, the
focus is on noisy large-scale problems, which often involve a multitude of
dimensions as well as multiple local optima. Our aim is to combine the property
of multi-armed bandits to cope with volatile simulation observations with the
ability of genetic algorithms to handle high-dimensional solution spaces
accompanied by an enormous number of feasible solutions. For this purpose, a
multi-armed bandit framework serves as a foundation, where each observed
simulation is incorporated into the memory of GMAB. Based on this memory,
genetic operators guide the search, as they provide powerful tools for
exploration as well as exploitation. The empirical results demonstrate that
GMAB achieves superior performance compared to benchmark algorithms from the
literature in a large variety of test problems. In all experiments, GMAB
required considerably fewer simulations to achieve similar or (far) better
solutions than those generated by existing methods. At the same time, GMAB's
overhead with regard to the required runtime is extremely small due to the
suggested tree-based implementation of its memory. Furthermore, we prove its
convergence to the set of global optima as the simulation effort goes to
infinity.
- Abstract(参考訳): 本稿では,マルチアームバンディットの強化学習領域の概念と遺伝的アルゴリズムの領域からのランダム探索戦略を組み合わせて,離散確率最適化問題をシミュレーションにより解くGMABと呼ばれる新しいアルゴリズムを提案する。
特に、ノイズの多い大規模問題に焦点が当てられ、それはしばしば複数の次元と複数の局所最適化を含む。
本研究の目的は, 揮発性シミュレーション観測に対処するマルチアームバンディットの特性と, 膨大な数の実現可能な解を伴う高次元解空間を扱う遺伝的アルゴリズムの能力を組み合わせることである。
この目的のために、マルチアームバンディットフレームワークが基礎として機能し、各観測されたシミュレーションをGMABのメモリに組み込む。
この記憶に基づいて、遺伝操作者は探索と搾取のための強力なツールを提供するため、探索を導く。
実験結果から, GMABは, 各種試験問題における文献からのベンチマークアルゴリズムと比較して, 優れた性能を示した。
すべての実験において、gmabは、既存の方法によって生成されたものよりも類似または(はるかに)優れた解を達成するために、かなり少ないシミュレーションを必要とした。
同時に、GMABの要求ランタイムに対するオーバーヘッドは、メモリのツリーベースの実装が提案されているため、非常に小さい。
さらに、シミュレーションの努力が無限に進むにつれて、グローバルな最適化の集合に収束することが証明される。
関連論文リスト
- LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - A unified consensus-based parallel ADMM algorithm for high-dimensional
regression with combined regularizations [3.280169909938912]
並列交互乗算器 (ADMM) は大規模分散データセットの処理に有効であることが広く認識されている。
提案アルゴリズムは,財務事例の信頼性,安定性,スケーラビリティを示す。
論文 参考訳(メタデータ) (2023-11-21T03:30:38Z) - An Optimal Algorithm for the Real-Valued Combinatorial Pure Exploration
of Multi-Armed Bandit [65.268245109828]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。
既存のR-CPE-MABの手法は、いわゆるトランスダクティブ線形帯域の特殊な場合と見なすことができる。
本稿では,差分探索アルゴリズム (CombGapE) を提案する。
論文 参考訳(メタデータ) (2023-06-15T15:37:31Z) - Simulation-guided Beam Search for Neural Combinatorial Optimization [13.072343634530883]
ニューラル最適化問題に対するシミュレーション誘導ビームサーチ(SGBS)を提案する。
我々は、SGBSと効率的なアクティブサーチ(EAS)を併用し、SGBSはEASでバックプロパゲーションされたソリューションの品質を高める。
提案手法をよく知られたCOベンチマークで評価し,SGBSが合理的な仮定で得られた解の質を著しく向上することを示す。
論文 参考訳(メタデータ) (2022-07-13T13:34:35Z) - Optimal Gradient-based Algorithms for Non-concave Bandit Optimization [76.57464214864756]
この研究は、未知の報酬関数が非可逆であるようなバンドイット問題の大群を考察する。
我々のアルゴリズムは、非常に一般化されたゼロ階最適化のパラダイムに基づいている。
標準的な楽観的アルゴリズムは次元因子によって準最適であることを示す。
論文 参考訳(メタデータ) (2021-07-09T16:04:24Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - A bi-level encoding scheme for the clustered shortest-path tree problem
in multifactorial optimization [1.471992435706872]
CluSPT(Clustered Shortest-Path Tree Problem)は、実生活における様々な最適化問題において重要な役割を果たしている。
近年、CluSPTを扱うためにMFEA(Multifactorial Evolutionary Algorithm)が導入されている。
本稿では,MFEAに基づくCluSPTの解法について述べる。
論文 参考訳(メタデータ) (2021-02-12T13:36:07Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Fast and stable MAP-Elites in noisy domains using deep grids [1.827510863075184]
Deep-Grid MAP-ElitesはMAP-Elitesアルゴリズムの変種である。
この単純なアプローチは、適合性最適化の観点から競争性能を達成しつつ、動作記述子のノイズに対する耐性が著しく高いことを示す。
論文 参考訳(メタデータ) (2020-06-25T08:47:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。