論文の概要: Learning when to observe: A frugal reinforcement learning framework for
a high-cost world
- arxiv url: http://arxiv.org/abs/2307.02620v2
- Date: Mon, 24 Jul 2023 14:21:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 20:26:19.066489
- Title: Learning when to observe: A frugal reinforcement learning framework for
a high-cost world
- Title(参考訳): 観察するべきときの学習--高コスト世界のためのフラガアル強化学習フレームワーク
- Authors: Colin Bellinger, Mark Crowley, Isaac Tamblyn
- Abstract要約: 強化学習は複雑なタスクに対する洗練された制御ポリシーを学ぶことが示されている。
材料設計、深海探査、惑星ロボット探査、医学などの応用においては、環境の状態を測定することや近似することに関連するコストが高くなる可能性がある。
本稿では,Dep Dynamic Multi-Step Observationless Agent (DMSOA)を提案する。
- 参考スコア(独自算出の注目度): 3.1067816704753706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has been shown to learn sophisticated control
policies for complex tasks including games, robotics, heating and cooling
systems and text generation. The action-perception cycle in RL, however,
generally assumes that a measurement of the state of the environment is
available at each time step without a cost. In applications such as materials
design, deep-sea and planetary robot exploration and medicine, however, there
can be a high cost associated with measuring, or even approximating, the state
of the environment. In this paper, we survey the recently growing literature
that adopts the perspective that an RL agent might not need, or even want, a
costly measurement at each time step. Within this context, we propose the Deep
Dynamic Multi-Step Observationless Agent (DMSOA), contrast it with the
literature and empirically evaluate it on OpenAI gym and Atari Pong
environments. Our results, show that DMSOA learns a better policy with fewer
decision steps and measurements than the considered alternative from the
literature. The corresponding code is available at:
\url{https://github.com/cbellinger27/Learning-when-to-observe-in-RL
- Abstract(参考訳): 強化学習(rl)は、ゲーム、ロボット工学、暖房・冷却システム、テキスト生成といった複雑なタスクのための高度な制御ポリシーを学ぶことが示されている。
しかしながら、RLの行動知覚サイクルは一般的に、環境の状態の測定がコストなしで各ステップで利用可能であると仮定する。
しかし、材料設計、深海探査、惑星ロボット探査、医学などの応用においては、環境の状態を測定すること、あるいは近似することに関わるコストが高い可能性がある。
本稿では,RLエージェントが各段階のコスト測定を必要とせず,必要としない,あるいは望まざるを得ないという視点を取り入れた近年の文献を調査する。
このような状況下では,Deep Dynamic Multi-Step Observationless Agent (DMSOA) を提案し,文献と対比し,OpenAIジムやAtari Pong環境上で実証的に評価する。
その結果、DMSOAは、文献から考慮された代替案よりも、より少ない意思決定手順と測定でより良い政策を学習していることを示す。
対応するコードは以下の通りである。 \url{https://github.com/cbellinger27/Learning-when-to-observe-in-RL
関連論文リスト
- METRA: Scalable Unsupervised RL with Metric-Aware Abstraction [69.90741082762646]
Metric-Aware Abstraction (METRA)は、教師なし強化学習の新たな目標である。
潜在空間のあらゆる方向に移動することを学ぶことで、METRAは様々な振る舞いの抽出可能な集合を得る。
複雑なピクセルベースの環境においても,METRAは様々な有用な振る舞いを発見できることを示す。
論文 参考訳(メタデータ) (2023-10-13T06:43:11Z) - Accelerate Multi-Agent Reinforcement Learning in Zero-Sum Games with
Subgame Curriculum Learning [65.36326734799587]
ゼロサムゲームのための新しいサブゲームカリキュラム学習フレームワークを提案する。
エージェントを以前に訪れた状態にリセットすることで、適応的な初期状態分布を採用する。
我々は,2乗距離をNE値に近似するサブゲーム選択指標を導出する。
論文 参考訳(メタデータ) (2023-10-07T13:09:37Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - A Survey on Offline Reinforcement Learning: Taxonomy, Review, and Open
Problems [0.0]
強化学習(RL)は、急速に人気が高まっている。
高いコストと環境との相互作用の危険性のため、RLにはアクセスできない領域がまだ広い範囲にある。
オフラインRLは、以前に収集されたインタラクションの静的データセットからのみ学習するパラダイムである。
論文 参考訳(メタデータ) (2022-03-02T20:05:11Z) - Scientific Discovery and the Cost of Measurement -- Balancing
Information and Cost in Reinforcement Learning [1.926971915834451]
我々は、コストのかかる報酬の形で、測定コストを明示する。
そこで本研究では,市販の深層RLアルゴリズムを用いて,アクションの選択と,システムの現在の状態を計測するか否かを判断するポリシを学習するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-14T16:48:57Z) - How to Train Your Robot with Deep Reinforcement Learning; Lessons We've
Learned [111.06812202454364]
本稿では,ロボット深部RLのケーススタディをいくつか紹介する。
深部RLにおける一般的な課題と,それらの課題について論じる。
また、他の卓越した課題についても概説し、その多くが現実世界のロボティクスの設定に特有のものである。
論文 参考訳(メタデータ) (2021-02-04T22:09:28Z) - WordCraft: An Environment for Benchmarking Commonsense Agents [107.20421897619002]
我々はLittle Alchemy 2.0をベースとしたRL環境であるWordCraftを提案する。
この軽量環境は、現実のセマンティクスにインスパイアされたエンティティとリレーションに基づいて実行され、構築される。
論文 参考訳(メタデータ) (2020-07-17T18:40:46Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。