論文の概要: Knowledge-Guided Exploration in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.15670v1
- Date: Wed, 26 Oct 2022 18:39:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 15:20:55.983018
- Title: Knowledge-Guided Exploration in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習における知識誘導探索
- Authors: Sahisnu Mazumder, Bing Liu, Shuai Wang, Yingxuan Zhu, Xiaotian Yin,
Lifeng Liu, Jian Li
- Abstract要約: 本稿では,SAP(State-action Permissibility)の特性を有する問題に対する深層強化学習(Deep RL)トレーニングを劇的に高速化する手法を提案する。
提案したSAP特性と動作許容度知識を2つの最先端深部RLアルゴリズムにエンコードして,その状態行動探索を導出する。
その結果,SAPに基づく指導はRLトレーニングを著しく高速化できることがわかった。
- 参考スコア(独自算出の注目度): 24.607872733786706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a new method to drastically speed up deep reinforcement
learning (deep RL) training for problems that have the property of state-action
permissibility (SAP). Two types of permissibility are defined under SAP. The
first type says that after an action $a_t$ is performed in a state $s_t$ and
the agent has reached the new state $s_{t+1}$, the agent can decide whether
$a_t$ is permissible or not permissible in $s_t$. The second type says that
even without performing $a_t$ in $s_t$, the agent can already decide whether
$a_t$ is permissible or not in $s_t$. An action is not permissible in a state
if the action can never lead to an optimal solution and thus should not be
tried (over and over again). We incorporate the proposed SAP property and
encode action permissibility knowledge into two state-of-the-art deep RL
algorithms to guide their state-action exploration together with a virtual
stopping strategy. Results show that the SAP-based guidance can markedly speed
up RL training.
- Abstract(参考訳): 本稿では,SAP(State-action Permissibility)の特性を有する問題に対する深層強化学習(Deep RL)トレーニングを劇的に高速化する手法を提案する。
SAPでは2種類の許容度が定義される。
最初の型では、アクション $a_t$ が状態 $s_t$ で実行され、エージェントが新しい状態 $s_{t+1}$ に達した後、エージェントは $a_t$ が許容可能かどうかを $s_t$ で決定できる。
2つ目の型は、$a_t$を$s_t$で実行しなくても、エージェントが$a_t$が許容可能かどうかを決定できると言っている。
アクションが最適解を導くことができないため、(何度も)試すべきではない場合、アクションは、ある状態では許容されない。
提案したSAP特性と動作許容度知識を2つの最先端深部RLアルゴリズムにエンコードし,その状態-動作探索を仮想停止戦略とともに導く。
その結果,SAPに基づく指導はRLトレーニングを著しく高速化できることがわかった。
関連論文リスト
- Provably Efficient Action-Manipulation Attack Against Continuous Reinforcement Learning [49.48615590763914]
我々は,モンテカルロ木探索法を用いて効率的な行動探索と操作を行うLCBTというブラックボックス攻撃アルゴリズムを提案する。
提案手法は, DDPG, PPO, TD3の3つの攻撃的アルゴリズムに対して, 連続的な設定で実行し, 攻撃性能が期待できることを示す。
論文 参考訳(メタデータ) (2024-11-20T08:20:29Z) - Reinforcement Learning from Human Feedback with Active Queries [67.27150911254155]
現在の強化学習アプローチは、多くの場合、大量の人間による嗜好データを必要とする。
本稿では,能動学習の成功に触発されたクエリ効率の高いRLHF手法を提案する。
実験の結果,ADPOは人間の好みに対するクエリの約半分しか作成していないが,最先端のDPO法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T18:58:40Z) - When is Agnostic Reinforcement Learning Statistically Tractable? [76.1408672715773]
エンフスパンニング容量と呼ばれる新しい複雑性測度は、設定された$Pi$にのみ依存し、MDPダイナミクスとは独立である。
我々は、学習するためにスーパーポリノミカルな数のサンプルを必要とする制限付きスパンリング能力を持つポリシークラス$Pi$が存在することを示した。
これにより、生成的アクセスとオンラインアクセスモデルの間の学習可能性の驚くほどの分離が明らかになる。
論文 参考訳(メタデータ) (2023-10-09T19:40:54Z) - Efficient Reinforcement Learning with Impaired Observability: Learning
to Act with Delayed and Missing State Observations [92.25604137490168]
本稿では,制御系における効率的な強化学習に関する理論的研究を紹介する。
遅延および欠落した観測条件において,RL に対して $tildemathcalO(sqrtrm poly(H) SAK)$ という形でアルゴリズムを提示し,その上限と下限をほぼ最適に設定する。
論文 参考訳(メタデータ) (2023-06-02T02:46:39Z) - Reaching Goals is Hard: Settling the Sample Complexity of the Stochastic
Shortest Path [106.37656068276902]
本稿では,最短経路(SSP)問題において,$epsilon$-optimal Policyを学習する際のサンプル複雑性について検討する。
学習者が生成モデルにアクセスできる場合、複雑性境界を導出する。
我々は、$S$状態、$A$アクション、最小コスト$c_min$、およびすべての状態に対する最適ポリシーの最大期待コストを持つ最悪のSSPインスタンスが存在することを示す。
論文 参考訳(メタデータ) (2022-10-10T18:34:32Z) - Indirect Active Learning [7.84669346764821]
局所的にX$とY$の関係を推定するためのミニマックス収束率について検討する。
多くの場合、アクティブな学習には利点があるが、この利点は2つの受動的実験を連続して実行する単純な2段階学習者によって完全に実現されている。
論文 参考訳(メタデータ) (2022-06-03T08:37:35Z) - Decentralized Cooperative Reinforcement Learning with Hierarchical
Information Structure [14.919120396838208]
本稿では,2エージェントマルチアームバンド (MABs) とマルコフ決定プロセス (MDPs) を,アプリケーションに生じる階層的情報構造を用いて検討する。
それぞれのステップにおいて、"リーダー"はまず彼女の行動を選択し、その後に"フォロワー"はリーダーの行動を観察して自分の行動を決定する。
MDP設定の場合、$widetildemathcalO(sqrtH7S2ABT)$ regret, where $H$ is the number of episode, $S$ is the number of states。
論文 参考訳(メタデータ) (2021-11-01T09:18:07Z) - An Analysis of Frame-skipping in Reinforcement Learning [13.680685626360903]
多くのAtariコンソールゲームでは、強化学習アルゴリズムが$d > 1$で実行する場合、かなり優れたポリシーを提供する。
我々は、同じアクションの$d$長のシーケンスに対するこの選択の一般的な制限である「アクション-繰り返し」に焦点を当てる。
この損失は、より小さなタスクの地平線によって学習がもたらされた利益によって相殺される可能性がある。
論文 参考訳(メタデータ) (2021-02-07T04:59:09Z) - Improved Sample Complexity for Incremental Autonomous Exploration in
MDPs [132.88757893161699]
我々は $epsilon$-optimal 目標条件付きポリシーのセットを学び、$ L$ ステップ内で段階的に到達可能なすべての状態を達成します。
DisCoは、コストに敏感な最短経路問題に対して$epsilon/c_min$-optimalポリシーを返すことができる最初のアルゴリズムです。
論文 参考訳(メタデータ) (2020-12-29T14:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。