論文の概要: Ergodic Annealing
- arxiv url: http://arxiv.org/abs/2008.00234v1
- Date: Sat, 1 Aug 2020 10:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 00:18:23.999155
- Title: Ergodic Annealing
- Title(参考訳): エルゴード・アニーリング
- Authors: Carlo Baldassi, Fabio Maccheroni, Massimo Marinacci, Marco Pirazzini
- Abstract要約: 我々は、Simulated Annealingのメトロポリスエンジンを強化学習変種に置き換える。
コスト関数が不明で,人工エージェントで学習しなければならない場合,シミュレート・アニーリングは極めて有効であることを示す。
- 参考スコア(独自算出の注目度): 0.9467360130705919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simulated Annealing is the crowning glory of Markov Chain Monte Carlo Methods
for the solution of NP-hard optimization problems in which the cost function is
known. Here, by replacing the Metropolis engine of Simulated Annealing with a
reinforcement learning variation -- that we call Macau Algorithm -- we show
that the Simulated Annealing heuristic can be very effective also when the cost
function is unknown and has to be learned by an artificial agent.
- Abstract(参考訳): シミュレート・アニーリング(シミュレート・アニーリング)は、コスト関数が知られているnpハード最適化問題の解に対するマルコフ連鎖モンテカルロ法の栄光である。
ここでは,Simulated AnnealingのMetropolisエンジンを,Macau Algorithmと呼ばれる強化学習変種に置き換えることで,コスト関数が不明で,人工エージェントが学習しなければならない場合にも,Simulated Annealingヒューリスティックが非常に有効であることを示す。
関連論文リスト
- Stable Inverse Reinforcement Learning: Policies from Control Lyapunov Landscapes [4.229902091180109]
実験データからリアプノフ関数を学習するための新しい安定度認証IRL手法を提案する。
関連する制御ポリシーのクローズドフォーム表現を利用することで、CLFの空間を効率的に探索することができる。
我々は,CLFが提供する最適性に関する理論的解析を行い,シミュレーションデータと実世界データの両方を用いて我々のアプローチを評価する。
論文 参考訳(メタデータ) (2024-05-14T16:40:45Z) - Quantum-Enhanced Simulation-Based Optimization for Newsvendor Problems [5.500172106704342]
古典モンテカルロシミュレーションと比較して量子振幅推定(QAE)の高効率性を利用する。
本研究では,シミュレーションに基づく最適化に量子エンハンスアルゴリズムを用い,NP-hardとして知られる古典ニュース問題の変種を解く。
論文 参考訳(メタデータ) (2024-03-26T05:14:50Z) - Data-driven abstractions via adaptive refinements and a Kantorovich
metric [extended version] [56.94699829208978]
本稿では,動的システムのスマートでスケーラブルな抽象化のための適応的洗練手順を提案する。
最適構造を学ぶために、マルコフ連鎖の間のカントロビッチに着想を得た計量を定義する。
本稿では,従来の線形プログラミング手法よりも計算量が多くなることを示す。
論文 参考訳(メタデータ) (2023-03-30T11:26:40Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - How Much Entanglement Do Quantum Optimization Algorithms Require? [0.0]
ADAPT-QAOA施行時に発生する絡みについて検討した。
この柔軟性を漸進的に制限することにより、初期におけるより多くの絡み合いエントロピーが、後段におけるより速い収束と一致していることが分かる。
論文 参考訳(メタデータ) (2022-05-24T18:00:02Z) - Stochastic convex optimization for provably efficient apprenticeship
learning [1.0609815608017066]
コスト関数が不明な大規模マルコフ決定プロセス(MDP)について検討する。
擬似学習の課題に対処するために凸最適化ツールを用いており、これは、限られた専門家による実証からポリシーを学習するものである。
論文 参考訳(メタデータ) (2021-12-31T19:47:57Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Plug-And-Play Learned Gaussian-mixture Approximate Message Passing [71.74028918819046]
そこで本研究では,従来のi.i.d.ソースに適した圧縮圧縮センシング(CS)リカバリアルゴリズムを提案する。
我々のアルゴリズムは、Borgerdingの学習AMP(LAMP)に基づいて構築されるが、アルゴリズムに普遍的な復調関数を採用することにより、それを大幅に改善する。
数値評価により,L-GM-AMPアルゴリズムは事前の知識を必要とせず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-11-18T16:40:45Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - On the Convergence of Reinforcement Learning with Monte Carlo Exploring
Starts [5.137144629366217]
基本的なシミュレーションに基づく強化学習アルゴリズムはモンテカルロ探索州 (MCES) 法である。
最短経路問題としても知られる未計算コストの場合のこのアルゴリズムの収束性について検討する。
副作用として、近似によく用いられるスーパーマリンゲール収束定理のバージョンの証明も提供する。
論文 参考訳(メタデータ) (2020-07-21T16:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。