論文の概要: Evolutionary Multi-Armed Bandits with Genetic Thompson Sampling
- arxiv url: http://arxiv.org/abs/2205.10113v1
- Date: Tue, 26 Apr 2022 22:41:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-29 21:22:14.917716
- Title: Evolutionary Multi-Armed Bandits with Genetic Thompson Sampling
- Title(参考訳): 遺伝的トンプソンサンプリングを用いた進化的多腕バンディット
- Authors: Baihan Lin
- Abstract要約: 遺伝的トンプソンサンプリング(英語版)は、エージェントの集団を維持し、エリート選択、クロスオーバー、突然変異などの遺伝的原理でそれらを更新するバンディットアルゴリズムである。
EvoBanditはWebベースのインタラクティブな視覚化で、学習プロセス全体を通して読者をガイドし、オンザフライで軽量な評価を行う。
- 参考スコア(独自算出の注目度): 13.173307471333619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As two popular schools of machine learning, online learning and evolutionary
computations have become two important driving forces behind real-world
decision making engines for applications in biomedicine, economics, and
engineering fields. Although there are prior work that utilizes bandits to
improve evolutionary algorithms' optimization process, it remains a field of
blank on how evolutionary approach can help improve the sequential decision
making tasks of online learning agents such as the multi-armed bandits. In this
work, we propose the Genetic Thompson Sampling, a bandit algorithm that keeps a
population of agents and update them with genetic principles such as elite
selection, crossover and mutations. Empirical results in multi-armed bandit
simulation environments and a practical epidemic control problem suggest that
by incorporating the genetic algorithm into the bandit algorithm, our method
significantly outperforms the baselines in nonstationary settings. Lastly, we
introduce EvoBandit, a web-based interactive visualization to guide the readers
through the entire learning process and perform lightweight evaluations on the
fly. We hope to engage researchers into this growing field of research with
this investigation.
- Abstract(参考訳): 2つの一般的な機械学習の流派として、オンライン学習と進化的計算が、バイオメディシン、経済学、工学分野の応用のための実世界の意思決定エンジンの原動力となっている。
進化的アルゴリズムの最適化プロセスを改善するためにバンディットを利用する先行研究があるが、マルチアームのバンディットのようなオンライン学習エージェントのシーケンシャルな意思決定タスクを改善するのに進化的アプローチがいかに役立つかについては、まだ空白の分野である。
本研究は,エリート選択,クロスオーバー,突然変異などの遺伝的原理を用いて,エージェント群を保持して更新するバンディットアルゴリズムであるgenetic thompson samplingを提案する。
マルチアームバンディットシミュレーション環境における実験結果と,遺伝的アルゴリズムをバンディットアルゴリズムに組み込むことにより,非定常環境でのベースラインを著しく上回ることを示す。
最後に、学習プロセス全体を通して読者をガイドし、短時間で軽量な評価を行うwebベースのインタラクティブな可視化であるevobanditを紹介する。
この調査で研究者をこの成長分野に巻き込みたいと思っています。
関連論文リスト
- DARLEI: Deep Accelerated Reinforcement Learning with Evolutionary
Intelligence [77.78795329701367]
本稿では,進化アルゴリズムと並列化強化学習を組み合わせたフレームワークであるDARLEIを提案する。
我々はDARLEIの性能を様々な条件で特徴付け、進化形態の多様性に影響を与える要因を明らかにした。
今後DARLEIを拡張して、よりリッチな環境における多様な形態素間の相互作用を取り入れていきたいと考えています。
論文 参考訳(メタデータ) (2023-12-08T16:51:10Z) - Genetic Algorithm enhanced by Deep Reinforcement Learning in parent
selection mechanism and mutation : Minimizing makespan in permutation flow
shop scheduling problems [0.18846515534317265]
RL+GA法はフローショップスケジューリング問題(FSP)で特に検証された。
このハイブリッドアルゴリズムはニューラルネットワーク(NN)を導入し、Qラーニング(Q-learning)というオフ政治手法を使用する。
本研究は, プリミティブGAの性能向上におけるRL+GAアプローチの有効性を明らかにするものである。
論文 参考訳(メタデータ) (2023-11-10T08:51:42Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - A Reinforcement Learning-assisted Genetic Programming Algorithm for Team
Formation Problem Considering Person-Job Matching [70.28786574064694]
解の質を高めるために強化学習支援遺伝的プログラミングアルゴリズム(RL-GP)を提案する。
効率的な学習を通じて得られる超ヒューリスティックなルールは、プロジェクトチームを形成する際の意思決定支援として利用することができる。
論文 参考訳(メタデータ) (2023-04-08T14:32:12Z) - Generative Adversarial Neuroevolution for Control Behaviour Imitation [3.04585143845864]
本稿では,一般的なシミュレーション環境における行動模倣にディープ・ニューロエボリューションが有効かどうかを考察する。
我々は、単純な共進化的逆数生成フレームワークを導入し、標準の深い再帰ネットワークを進化させることにより、その能力を評価する。
全てのタスクにおいて、事前訓練されたエージェントが獲得したものよりも高いスコアを達成できる最後のエリートアクターが見つかる。
論文 参考訳(メタデータ) (2023-04-03T16:33:22Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Direct Mutation and Crossover in Genetic Algorithms Applied to
Reinforcement Learning Tasks [0.9137554315375919]
本稿では、遺伝的アルゴリズム(GA)を用いて神経進化を適用し、最適な行動エージェントを生成するニューラルネットワークの重みを見つけることに焦点を当てる。
本稿では,データ効率と収束速度を初期実装と比較して改善する2つの新しい修正法を提案する。
論文 参考訳(メタデータ) (2022-01-13T07:19:28Z) - Improving RNA Secondary Structure Design using Deep Reinforcement
Learning [69.63971634605797]
本稿では,RNA配列設計に強化学習を適用した新しいベンチマークを提案する。このベンチマークでは,目的関数を配列の二次構造における自由エネルギーとして定義する。
本稿では,これらのアルゴリズムに対して行うアブレーション解析の結果と,バッチ間でのアルゴリズムの性能を示すグラフを示す。
論文 参考訳(メタデータ) (2021-11-05T02:54:06Z) - An Efficient Application of Neuroevolution for Competitive Multiagent
Learning [0.0]
NEATは、最高のパフォーマンスのニューラルネットワークアーキテクチャを得るために使われる一般的な進化戦略である。
本稿では, NEATアルゴリズムを用いて, 変形したポンポンゲーム環境において, 競争力のあるマルチエージェント学習を実現する。
論文 参考訳(メタデータ) (2021-05-23T10:34:48Z) - Lineage Evolution Reinforcement Learning [15.469857142001482]
線形進化強化学習は一般エージェント集団学習システムに対応する派生アルゴリズムである。
実験により,アタリ2600のゲームにおいて,系統進化の考え方により,元の強化学習アルゴリズムの性能が向上することが確認された。
論文 参考訳(メタデータ) (2020-09-26T11:58:16Z) - AutoML-Zero: Evolving Machine Learning Algorithms From Scratch [76.83052807776276]
基本数学的操作をビルディングブロックとして使うだけで,完全な機械学習アルゴリズムを自動的に発見できることが示される。
汎用的な検索空間を通じて人間のバイアスを大幅に低減する新しいフレームワークを導入することでこれを実証する。
機械学習アルゴリズムをゼロから発見する上で、これらの予備的な成功は、この分野における有望な新しい方向性を示していると信じている。
論文 参考訳(メタデータ) (2020-03-06T19:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。