論文の概要: Active Measure Reinforcement Learning for Observation Cost Minimization
- arxiv url: http://arxiv.org/abs/2005.12697v1
- Date: Tue, 26 May 2020 13:18:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 00:15:54.367820
- Title: Active Measure Reinforcement Learning for Observation Cost Minimization
- Title(参考訳): 観測コスト最小化のためのアクティブ測定強化学習
- Authors: Colin Bellinger, Rory Coles, Mark Crowley, Isaac Tamblyn
- Abstract要約: 本稿では,コストのかかるリターンを最大化するための学習問題の初期解として,アクティブ測度RLフレームワーク(Amrl)を提案する。
Amrl-Qエージェントは、オンライントレーニング中に、ポリシーと状態推定器を並列に学習できることが示される。
以上の結果から,Amrl-Qエージェントは標準QラーニングやDyna-Qと同様の速度で学習することがわかった。
- 参考スコア(独自算出の注目度): 2.76428709354823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard reinforcement learning (RL) algorithms assume that the observation
of the next state comes instantaneously and at no cost. In a wide variety of
sequential decision making tasks ranging from medical treatment to scientific
discovery, however, multiple classes of state observations are possible, each
of which has an associated cost. We propose the active measure RL framework
(Amrl) as an initial solution to this problem where the agent learns to
maximize the costed return, which we define as the discounted sum of rewards
minus the sum of observation costs. Our empirical evaluation demonstrates that
Amrl-Q agents are able to learn a policy and state estimator in parallel during
online training. During training the agent naturally shifts from its reliance
on costly measurements of the environment to its state estimator in order to
increase its reward. It does this without harm to the learned policy. Our
results show that the Amrl-Q agent learns at a rate similar to standard
Q-learning and Dyna-Q. Critically, by utilizing an active strategy, Amrl-Q
achieves a higher costed return.
- Abstract(参考訳): 標準強化学習(rl)アルゴリズムは、次の状態の観察は瞬時かつ低コストで行われると仮定する。
しかし、医学的治療から科学的発見まで、さまざまな連続的な意思決定タスクでは、様々な種類の状態観察が可能であり、それぞれに関連するコストが伴う。
本稿では,費用対効果を最大化するためにエージェントが学習する問題に対する初期解として,アクティブ測度RLフレームワーク(Amrl)を提案する。
私たちの経験的評価は、Arl-Qエージェントがオンライントレーニング中にポリシーと状態推定器を並列に学習できることを示しています。
訓練中、エージェントは報酬を増やすために、環境のコスト測定に依存するものから状態推定器へと自然に移行する。
これは学習した政策に害を及ぼさずに行う。
その結果,Amrl-Qエージェントは標準Q-ラーニングやDyna-Qと同様の速度で学習することがわかった。
重要なことに、アクティブ戦略を利用することで、Amrl-Qはより高いコストのリターンを達成する。
関連論文リスト
- Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic [42.57662196581823]
高品質な$Q$値関数の学習は、多くの現代のオフポリシーディープ強化学習(RL)アルゴリズムの成功に重要な役割を果たしている。
一般的な視点から考えると、RLトレーニングプロセスの後半段階では、$Q$-valueが過小評価されることが多い。
本稿では,Blended Exploitation and Exploration (BEE)演算子を提案する。
論文 参考訳(メタデータ) (2023-06-05T13:38:14Z) - Learning Progress Driven Multi-Agent Curriculum [18.239527837186216]
カリキュラム強化学習は、タスクの難易度を徐々に高めることによって学習を高速化することを目的としている。
本報告では,SPMARL(Self-paced MARL)を用いて,エピソードリターンではなくテキスト学習の進捗状況に基づくタスクの優先順位付けを行う。
論文 参考訳(メタデータ) (2022-05-20T08:16:30Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Scientific Discovery and the Cost of Measurement -- Balancing
Information and Cost in Reinforcement Learning [1.926971915834451]
我々は、コストのかかる報酬の形で、測定コストを明示する。
そこで本研究では,市販の深層RLアルゴリズムを用いて,アクションの選択と,システムの現在の状態を計測するか否かを判断するポリシを学習するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-14T16:48:57Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z) - Active Reinforcement Learning: Observing Rewards at a Cost [9.034315299202847]
アクティブ強化学習(英: Active reinforcement learning、ARL)は、エージェントがクエリコストを支払わない限り報酬を観察しない強化学習の変種である。
ARLの中心的な問題は、報酬情報の長期的な価値を定量化する方法である。
我々は,多腕バンディットおよび(タブラル)決定過程におけるARLに対するいくつかのアプローチを提案し,評価する。
論文 参考訳(メタデータ) (2020-11-13T01:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。