論文の概要: Efficient Exploration in Resource-Restricted Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.06988v1
- Date: Wed, 14 Dec 2022 02:50:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 14:26:27.818604
- Title: Efficient Exploration in Resource-Restricted Reinforcement Learning
- Title(参考訳): 資源制限強化学習における効率的な探索
- Authors: Zhihai Wang, Taoxing Pan, Qi Zhou, Jie Wang
- Abstract要約: 多くの実世界の強化学習の応用において、行動を実行するには、各エピソードで再生不可能な特定の種類のリソースを消費する必要がある。
資源を合理的に活用するための新しい資源対応探索ボーナス(RAEB)を提案する。
RAEBは資源制限強化学習環境における最先端の探査戦略を著しく上回っている。
- 参考スコア(独自算出の注目度): 6.463999435780127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many real-world applications of reinforcement learning (RL), performing
actions requires consuming certain types of resources that are
non-replenishable in each episode. Typical applications include robotic control
with limited energy and video games with consumable items. In tasks with
non-replenishable resources, we observe that popular RL methods such as soft
actor critic suffer from poor sample efficiency. The major reason is that, they
tend to exhaust resources fast and thus the subsequent exploration is severely
restricted due to the absence of resources. To address this challenge, we first
formalize the aforementioned problem as a resource-restricted reinforcement
learning, and then propose a novel resource-aware exploration bonus (RAEB) to
make reasonable usage of resources. An appealing feature of RAEB is that, it
can significantly reduce unnecessary resource-consuming trials while
effectively encouraging the agent to explore unvisited states. Experiments
demonstrate that the proposed RAEB significantly outperforms state-of-the-art
exploration strategies in resource-restricted reinforcement learning
environments, improving the sample efficiency by up to an order of magnitude.
- Abstract(参考訳): 実世界の強化学習(RL)の多くの応用において、実行には各エピソードで再生不可能な特定の種類のリソースを消費する必要がある。
典型的な用途としては、限られたエネルギーでロボット制御や、消費可能なアイテムでプレイするビデオゲームがある。
再生不能な資源を持つタスクでは,ソフトアクター評論家などのRL手法がサンプル効率の低下に悩まされていることが観察された。
主な理由は、資源の消費が速くなるため、以後の探査は資源の不足のために厳しく制限されているためである。
この課題に対処するために、先述した問題をリソース制限強化学習として形式化し、リソースを合理的に活用するための新しい資源対応探索ボーナス(RAEB)を提案する。
RAEBの魅力は、不必要な資源消費の試行を著しく減らし、エージェントが目に見えない状態を探索することを効果的に促すことである。
実験により,RAEBは資源制限された強化学習環境における最先端の探査戦略を著しく上回り,サンプルの効率を最大で向上することを示した。
関連論文リスト
- Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。
以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。
IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文 参考訳(メタデータ) (2024-11-15T15:18:57Z) - LMGT: Optimizing Exploration-Exploitation Balance in Reinforcement Learning through Language Model Guided Trade-offs [27.014415210732103]
強化学習のための新しいサンプル効率フレームワークである textbfLanguage textbfModel textbfGuided textbfTrade-offs (textbfLMGT) を紹介する。
論文 参考訳(メタデータ) (2024-09-07T07:40:43Z) - Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Proactive Resource Request for Disaster Response: A Deep Learning-based
Optimization Model [0.2580765958706854]
我々は,要求される資源の最適量を積極的に決定する新たな資源管理問題を開発する。
我々は,問題の健全な特性を考慮に入れ,今後の需要予測のための新しいディープラーニング手法を開発した。
実世界とシミュレーションデータの両方を用いて,既存手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-31T13:44:01Z) - Operating critical machine learning models in resource constrained
regimes [0.18416014644193066]
本研究では,資源消費とディープラーニングモデルの性能のトレードオフについて検討する。
ディープラーニングモデルは、クリニックのようなクリティカルな環境で使用される。
論文 参考訳(メタデータ) (2023-03-17T12:02:08Z) - The Cost of Learning: Efficiency vs. Efficacy of Learning-Based RRM for
6G [10.28841351455586]
深層強化学習(DRL)は、複雑なネットワークにおける効率的な資源管理戦略を自動学習するための貴重なソリューションとなっている。
多くのシナリオでは、学習タスクはクラウドで実行され、経験サンプルはエッジノードまたはユーザによって直接生成される。
これにより、効果的な戦略に向けて収束をスピードアップする必要性と、学習サンプルの送信にリソースの割り当てが必要となることの間に摩擦が生じます。
本稿では,学習とデータプレーン間の動的バランス戦略を提案する。これにより,集中型学習エージェントは,効率的な資源配分戦略に迅速に収束することができる。
論文 参考訳(メタデータ) (2022-11-30T11:26:01Z) - Efficient Methods for Natural Language Processing: A Survey [76.34572727185896]
本研究は, 効率的なNLPにおける現在の手法と知見を合成し, 関連づけるものである。
我々は,限られた資源下でNLPを実施するためのガイダンスと,より効率的な手法を開発するための有望な研究方向性の両立を目指す。
論文 参考訳(メタデータ) (2022-08-31T20:32:35Z) - Active Learning for Argument Mining: A Practical Approach [2.535271349350579]
AURC(Argument Unit Recognition and Classification)の課題において,能動学習は,優れた深層学習能力を得るために必要な労力を大幅に削減することを示した。
Active Learningは、アノテーションの最も有益なサンプルをクエリすることで、機械学習モデルのトレーニングに必要なデータ量を削減します。
論文 参考訳(メタデータ) (2021-09-28T10:58:47Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Hierarchical Adaptive Contextual Bandits for Resource Constraint based
Recommendation [49.69139684065241]
コンテキスト多重武装バンディット(MAB)は、様々な問題において最先端のパフォーマンスを達成する。
本稿では,階層型適応型文脈帯域幅法(HATCH)を提案する。
論文 参考訳(メタデータ) (2020-04-02T17:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。