論文の概要: Reinforcement Learning with Algorithms from Probabilistic Structure
Estimation
- arxiv url: http://arxiv.org/abs/2103.08241v1
- Date: Mon, 15 Mar 2021 09:51:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 22:16:12.162126
- Title: Reinforcement Learning with Algorithms from Probabilistic Structure
Estimation
- Title(参考訳): 確率構造推定によるアルゴリズムによる強化学習
- Authors: Jonathan P. Epperlein, Roman Overko, Sergiy Zhuk, Christopher King,
Djallel Bouneffouf, Andrew Cullen and Robert Shorten
- Abstract要約: 強化学習アルゴリズムは未知の環境で最適な決定を学習することを目的としている。
エージェントのアクションが環境に影響を及ぼすかどうかは、当初から不明である。
どのRLアルゴリズムが最も適しているかを決定することはしばしば不可能です。
- 参考スコア(独自算出の注目度): 9.37335587960084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) algorithms aim to learn optimal decisions in
unknown environments through experience of taking actions and observing the
rewards gained. In some cases, the environment is not influenced by the actions
of the RL agent, in which case the problem can be modeled as a contextual
multi-armed bandit and lightweight \emph{myopic} algorithms can be employed. On
the other hand, when the RL agent's actions affect the environment, the problem
must be modeled as a Markov decision process and more complex RL algorithms are
required which take the future effects of actions into account. Moreover, in
many modern RL settings, it is unknown from the outset whether or not the
agent's actions will impact the environment and it is often not possible to
determine which RL algorithm is most fitting. In this work, we propose to avoid
this dilemma entirely and incorporate a choice mechanism into our RL framework.
Rather than assuming a specific problem structure, we use a probabilistic
structure estimation procedure based on a likelihood-ratio (LR) test to make a
more informed selection of learning algorithm. We derive a sufficient condition
under which myopic policies are optimal, present an LR test for this condition,
and derive a bound on the regret of our framework. We provide examples of
real-world scenarios where our framework is needed and provide extensive
simulations to validate our approach.
- Abstract(参考訳): 強化学習(RL)アルゴリズムは、行動を取り、得られた報酬を観察する経験を通じて、未知の環境で最適な決定を学ぶことを目指しています。
環境はRLエージェントの作用の影響を受けない場合もあるが、その場合、その問題を文脈的マルチアームバンディットとしてモデル化し、軽量な 'emph{myopic} アルゴリズムを用いることができる。
一方、RLエージェントのアクションが環境に影響を与える場合、問題はマルコフ決定プロセスとしてモデル化され、アクションの将来の影響を考慮するより複雑なRLアルゴリズムが必要です。
さらに、多くの現代のRL設定では、エージェントのアクションが環境に影響を与えるかどうかは最初から不明であり、どのRLアルゴリズムが最も適しているかを決定することはしばしば不可能です。
本研究では、このジレンマを完全に回避し、RLフレームワークに選択メカニズムを組み込むことを提案する。
特定の問題構造を仮定するのではなく,確率比(LR)テストに基づく確率的構造推定手法を用いて,学習アルゴリズムのより深い選択を行う。
我々は、筋電図のポリシーが最適である十分な条件を導出し、この条件に対するLRテストを示し、我々の枠組みの後悔に縛られることを導出する。
フレームワークが必要な実世界のシナリオの例を提供し、アプローチを検証するための広範なシミュレーションを提供します。
関連論文リスト
- REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Risk-sensitive Markov Decision Process and Learning under General
Utility Functions [3.6260136172126667]
強化学習(Reinforcement Learning, RL)は、様々な応用分野や理論的研究において大きな注目を集めている。
累積報酬の空間上でのエプシロン被覆を用いた修正値アルゴリズムを提案する。
シミュレータが存在しない場合,提案アルゴリズムは高信頼度探索法を用いて設計され,ほぼ最適ポリシーを同定する。
論文 参考訳(メタデータ) (2023-11-22T18:50:06Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - On Practical Robust Reinforcement Learning: Practical Uncertainty Set
and Double-Agent Algorithm [11.748284119769039]
ロバスト強化学習(RRL)は、マルコフ決定プロセス(MDP)の不確実性に対して最悪のケースパフォーマンスを最適化するための堅牢なポリシーを求めることを目的としている。
論文 参考訳(メタデータ) (2023-05-11T08:52:09Z) - Inapplicable Actions Learning for Knowledge Transfer in Reinforcement
Learning [3.194414753332705]
学習不能な動作はRLアルゴリズムのサンプル効率を大幅に向上させることを示す。
得られた知識の伝達性のおかげで、学習プロセスをより効率的にするために、他のタスクやドメインで再利用することができる。
論文 参考訳(メタデータ) (2022-11-28T17:45:39Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。
これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文 参考訳(メタデータ) (2021-03-01T22:55:48Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z) - A Survey of Reinforcement Learning Algorithms for Dynamically Varying
Environments [1.713291434132985]
強化学習(Reinforcement Learning, RL)アルゴリズムは、在庫管理、レコメンデータシステム、車両交通管理、クラウドコンピューティング、ロボット工学などの分野で応用されている。
これらの領域で生じる多くのタスクの現実的な合併症は、古典的RLアルゴリズムの基礎となる基本的な仮定で解くのを難しくする。
本稿では、動的に変化する環境モデルを扱うために開発されたRL法について調査する。
これらのアルゴリズムの代表的コレクションは、それらの分類と相対的なメリットとデメリットと共に、この研究で詳細に議論されている。
論文 参考訳(メタデータ) (2020-05-19T09:42:42Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。