論文の概要: Effective Reinforcement Learning through Evolutionary Surrogate-Assisted
Prescription
- arxiv url: http://arxiv.org/abs/2002.05368v2
- Date: Wed, 22 Apr 2020 03:27:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 09:44:09.188650
- Title: Effective Reinforcement Learning through Evolutionary Surrogate-Assisted
Prescription
- Title(参考訳): 進化的サロゲート支援による効果的な強化学習
- Authors: Olivier Francon, Santiago Gonzalez, Babak Hodjat, Elliot Meyerson,
Risto Miikkulainen, Xin Qiu, and Hormoz Shahrzad
- Abstract要約: 本稿では、進化的サロゲート支援処方(ESP)と呼ばれる一般的なアプローチを紹介する。
ESPは現実世界の問題における決定の最適化のための有望な基盤を形成する。
- 参考スコア(独自算出の注目度): 18.547387505708485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is now significant historical data available on decision making in
organizations, consisting of the decision problem, what decisions were made,
and how desirable the outcomes were. Using this data, it is possible to learn a
surrogate model, and with that model, evolve a decision strategy that optimizes
the outcomes. This paper introduces a general such approach, called
Evolutionary Surrogate-Assisted Prescription, or ESP. The surrogate is, for
example, a random forest or a neural network trained with gradient descent, and
the strategy is a neural network that is evolved to maximize the predictions of
the surrogate model. ESP is further extended in this paper to sequential
decision-making tasks, which makes it possible to evaluate the framework in
reinforcement learning (RL) benchmarks. Because the majority of evaluations are
done on the surrogate, ESP is more sample efficient, has lower variance, and
lower regret than standard RL approaches. Surprisingly, its solutions are also
better because both the surrogate and the strategy network regularize the
decision-making behavior. ESP thus forms a promising foundation to decision
optimization in real-world problems.
- Abstract(参考訳): 組織における意思決定に関する重要な歴史的データは、意思決定の問題、意思決定されたこと、成果がどの程度望ましいか、などで構成されています。
このデータを使用することで、代理モデルを学び、そのモデルで結果を最適化する意思決定戦略を進化させることができる。
本稿では、進化的サロゲート支援処方(ESP)と呼ばれる一般的なアプローチを紹介する。
代理は、例えばランダムな森林や勾配降下で訓練されたニューラルネットワークであり、その戦略は代理モデルの予測を最大化するために進化したニューラルネットワークである。
ESPはさらに、逐次意思決定タスクにまで拡張され、強化学習(RL)ベンチマークにおけるフレームワークの評価が可能となった。
ほとんどの評価はsurrogate上で行われるため、espはよりサンプル効率が高く、ばらつきが少なく、標準的なrlアプローチよりも後悔が少ない。
驚いたことに、surrogateとstrategy networkの両方が意思決定行動を規則化するので、ソリューションも優れている。
したがって、ESPは現実世界の問題における決定の最適化のための有望な基盤を形成する。
関連論文リスト
- Un-evaluated Solutions May Be Valuable in Expensive Optimization [5.6787965501364335]
本稿では,選択段階における代理モデルによって予測される高品質で未評価なソリューションを取り入れた戦略的アプローチを提案する。
このアプローチは評価された解の分布を改善することを目的としており、それによってより優れた次世代の解を生成する。
論文 参考訳(メタデータ) (2024-12-05T04:06:30Z) - Memory-Enhanced Neural Solvers for Efficient Adaptation in Combinatorial Optimization [6.713974813995327]
本稿では、メモリを活用してニューラルネットワークの適応性を向上させるアプローチであるMementOを提案する。
我々は,大規模インスタンス上で全RL自動回帰解法をトレーニングし,MementOが拡張可能で,データ効率がよいことを示す。
全体として、MementOは評価された12のタスクのうち11に最先端のタスクをプッシュすることができる。
論文 参考訳(メタデータ) (2024-06-24T08:18:19Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Rethinking Decision Transformer via Hierarchical Reinforcement Learning [54.3596066989024]
決定変換器(Decision Transformer, DT)は、強化学習(RL)における変換器アーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。
本稿では,階層RLのレンズを用いたシーケンシャル意思決定のための汎用シーケンスモデリングフレームワークを提案する。
DTは、高レベルかつ低レベルなポリシーを選択することで、このフレームワークの特別なケースとして現れ、これらの選択の潜在的な失敗について議論する。
論文 参考訳(メタデータ) (2023-11-01T03:32:13Z) - Optimal Sequential Decision-Making in Geosteering: A Reinforcement Learning Approach [0.0]
ジオステアリングと呼ばれる掘削プロセス全体の軌道調整決定は、その後の選択や情報収集に影響を与える。
本研究では,決定環境から直接学習するモデルフリー強化学習(RL)手法であるDeep Q-Network(DQN)手法を用いる。
これまでに2つの合成ジオステアリングシナリオに対して,RLは準最適ADPに匹敵する高品質な結果が得られることを示した。
論文 参考訳(メタデータ) (2023-10-07T10:49:30Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Data-Driven Offline Decision-Making via Invariant Representation
Learning [97.49309949598505]
オフラインのデータ駆動意思決定は、アクティブなインタラクションなしで最適化された決定を合成する。
オフラインデータからトレーニングされたモデルへの入力に関して最適化する場合、誤って良いように見えるアウト・オブ・ディストリビューション(OOD)インプットを生成するのは簡単です。
本稿では、オフラインデータ駆動意思決定をドメイン適応として定式化し、最適化された決定値の正確な予測を行うことを目標とする。
論文 参考訳(メタデータ) (2022-11-21T11:01:37Z) - Limitations of a proposed correction for slow drifts in decision
criterion [0.0]
ランダムドリフトからの系統的な更新を曖昧にするためのモデルに基づくアプローチを提案する。
提案手法は,決定基準におけるドリフトの潜航軌跡を正確に回復することを示す。
本結果は,生成過程の仮定を直接意思決定モデルに組み込むことの利点を強調した。
論文 参考訳(メタデータ) (2022-05-22T19:33:19Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - Post-hoc loss-calibration for Bayesian neural networks [25.05373000435213]
本研究では, 近似的後続予測分布の補正手法を開発し, 高ユーティリティな意思決定を推奨する。
従来の研究とは対照的に、我々のアプローチは近似推論アルゴリズムの選択に非依存である。
論文 参考訳(メタデータ) (2021-06-13T13:53:27Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。