論文の概要: Dynamic Observation Policies in Observation Cost-Sensitive Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2307.02620v3
- Date: Thu, 18 Apr 2024 19:22:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 20:36:15.267356
- Title: Dynamic Observation Policies in Observation Cost-Sensitive Reinforcement Learning
- Title(参考訳): コスト感性強化学習における動的観察ポリシー
- Authors: Colin Bellinger, Mark Crowley, Isaac Tamblyn,
- Abstract要約: 材料設計、深海探査、惑星ロボット探査、医学などの応用においては、環境の状態を測定することや近似することに関連するコストが高くなる可能性がある。
本稿では,Dep Dynamic Multi-Step Observationless Agent (DMSOA)を提案する。
その結果、DMSOAは、文献から考慮された代替案よりも、より少ない意思決定手順と測定でより良い政策を学習していることが示される。
- 参考スコア(独自算出の注目度): 2.646676851628651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has been shown to learn sophisticated control policies for complex tasks including games, robotics, heating and cooling systems and text generation. The action-perception cycle in RL, however, generally assumes that a measurement of the state of the environment is available at each time step without a cost. In applications such as materials design, deep-sea and planetary robot exploration and medicine, however, there can be a high cost associated with measuring, or even approximating, the state of the environment. In this paper, we survey the recently growing literature that adopts the perspective that an RL agent might not need, or even want, a costly measurement at each time step. Within this context, we propose the Deep Dynamic Multi-Step Observationless Agent (DMSOA), contrast it with the literature and empirically evaluate it on OpenAI gym and Atari Pong environments. Our results, show that DMSOA learns a better policy with fewer decision steps and measurements than the considered alternative from the literature.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) は、ゲーム、ロボット工学、暖房・冷却システム、テキスト生成など、複雑なタスクに対する洗練された制御ポリシーを学ぶことが示されている。
しかしながら、RLの行動知覚サイクルは、一般的に、環境の状態の測定がコストなしで各ステップで利用可能であると仮定する。
しかし、材料設計、深海探査、惑星ロボット探査、医学などの応用においては、環境の状態を測定すること、あるいは近似することに関わるコストが高い可能性がある。
本稿では,RLエージェントが各段階のコスト測定を必要とせず,必要としない,あるいは望まざるを得ないという視点を取り入れた近年の文献を調査する。
このような状況下では,Deep Dynamic Multi-Step Observationless Agent (DMSOA) を提案し,文献と対比し,OpenAIジムやAtari Pong環境上で実証的に評価する。
その結果、DMSOAは、文献から考慮された代替案よりも、より少ない意思決定手順と測定でより良い政策を学習していることが示される。
関連論文リスト
- Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。
論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。
LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文 参考訳(メタデータ) (2024-02-06T04:00:21Z) - METRA: Scalable Unsupervised RL with Metric-Aware Abstraction [69.90741082762646]
Metric-Aware Abstraction (METRA)は、教師なし強化学習の新たな目標である。
潜在空間のあらゆる方向に移動することを学ぶことで、METRAは様々な振る舞いの抽出可能な集合を得る。
複雑なピクセルベースの環境においても,METRAは様々な有用な振る舞いを発見できることを示す。
論文 参考訳(メタデータ) (2023-10-13T06:43:11Z) - CCE: Sample Efficient Sparse Reward Policy Learning for Robotic Navigation via Confidence-Controlled Exploration [72.24964965882783]
CCE (Confidence-Controlled Exploration) は、ロボットナビゲーションのようなスパース報酬設定のための強化学習アルゴリズムのトレーニングサンプル効率を高めるために設計された。
CCEは、勾配推定と政策エントロピーの間の新しい関係に基づいている。
我々は、CCEが一定軌跡長とエントロピー正規化を用いる従来の手法より優れるシミュレーションおよび実世界の実験を通して実証する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Scientific Discovery and the Cost of Measurement -- Balancing
Information and Cost in Reinforcement Learning [1.926971915834451]
我々は、コストのかかる報酬の形で、測定コストを明示する。
そこで本研究では,市販の深層RLアルゴリズムを用いて,アクションの選択と,システムの現在の状態を計測するか否かを判断するポリシを学習するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-14T16:48:57Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Towards Continual Reinforcement Learning: A Review and Perspectives [69.48324517535549]
我々は,連続的強化学習(RL)に対する異なる定式化とアプローチの文献レビューの提供を目的とする。
まだ初期段階だが、継続的なrlの研究は、よりインクリメンタルな強化学習者を開発することを約束している。
これには、医療、教育、物流、ロボット工学などの分野の応用が含まれる。
論文 参考訳(メタデータ) (2020-12-25T02:35:27Z) - Active Measure Reinforcement Learning for Observation Cost Minimization [2.76428709354823]
本稿では,コストのかかるリターンを最大化するための学習問題の初期解として,アクティブ測度RLフレームワーク(Amrl)を提案する。
Amrl-Qエージェントは、オンライントレーニング中に、ポリシーと状態推定器を並列に学習できることが示される。
以上の結果から,Amrl-Qエージェントは標準QラーニングやDyna-Qと同様の速度で学習することがわかった。
論文 参考訳(メタデータ) (2020-05-26T13:18:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。