論文の概要: State Action Separable Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.03713v1
- Date: Fri, 5 Jun 2020 22:02:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 02:33:48.571482
- Title: State Action Separable Reinforcement Learning
- Title(参考訳): 状態動作分離型強化学習
- Authors: Ziyao Zhang and Liang Ma and Kin K. Leung and Konstantinos Poularakis
and Mudhakar Srivatsa
- Abstract要約: 我々は,新たな学習パラダイムである状態行動分離型強化学習(sasRL)を提案する。
sasRLでは、アクション空間が値関数学習プロセスから切り離され、効率が向上する。
いくつかのゲームシナリオの実験では、sasRLは最先端のMDPベースのRLアルゴリズムより75%高い性能を示している。
- 参考スコア(独自算出の注目度): 11.04892417160547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) based methods have seen their paramount successes
in solving serial decision-making and control problems in recent years. For
conventional RL formulations, Markov Decision Process (MDP) and
state-action-value function are the basis for the problem modeling and policy
evaluation. However, several challenging issues still remain. Among most cited
issues, the enormity of state/action space is an important factor that causes
inefficiency in accurately approximating the state-action-value function. We
observe that although actions directly define the agents' behaviors, for many
problems the next state after a state transition matters more than the action
taken, in determining the return of such a state transition. In this regard, we
propose a new learning paradigm, State Action Separable Reinforcement Learning
(sasRL), wherein the action space is decoupled from the value function learning
process for higher efficiency. Then, a light-weight transition model is learned
to assist the agent to determine the action that triggers the associated state
transition. In addition, our convergence analysis reveals that under certain
conditions, the convergence time of sasRL is $O(T^{1/k})$, where $T$ is the
convergence time for updating the value function in the MDP-based formulation
and $k$ is a weighting factor. Experiments on several gaming scenarios show
that sasRL outperforms state-of-the-art MDP-based RL algorithms by up to
$75\%$.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)に基づく手法は, 近年, 連続的な意思決定・制御問題の解決に成功している。
従来のRL定式化では、マルコフ決定過程(MDP)と状態-作用値関数が問題モデリングと政策評価の基礎となっている。
しかし、いくつかの問題はまだ残っている。
最も引用される問題のうち、状態/動作空間の非効率性は、状態-アクション-値関数の正確な近似に非効率をもたらす重要な要素である。
我々は、アクションはエージェントの振る舞いを直接定義するが、多くの問題において、状態遷移後の次の状態は、そのような状態遷移の返却を決定する際のアクションよりも重要であることを観察する。
そこで本研究では,新たな学習パラダイムであるステートアクション分離型強化学習(sasRL)を提案する。
次に、軽量遷移モデルを学び、エージェントが関連する状態遷移をトリガーするアクションを決定するのを支援する。
さらに、収束解析により、ある条件下では、sasRL の収束時間は$O(T^{1/k})$であり、$T$ は MDP の定式化における値関数を更新する収束時間であり、$k$ は重み付け因子であることが明らかになった。
いくつかのゲームシナリオの実験では、sasRLは最先端のMDPベースのRLアルゴリズムを最大75\%$で上回っている。
関連論文リスト
- Towards Cost Sensitive Decision Making [14.279123976398926]
本研究では,環境から機能を積極的に獲得し,意思決定の質と確実性を向上するRLモデルを考察する。
本稿では,Active-Acquisition POMDPを提案する。
積極的に獲得された部分観測環境においてエージェントを支援するとともに,探索・探索ジレンマを軽減するため,モデルベースアプローチを開発した。
論文 参考訳(メタデータ) (2024-10-04T19:48:23Z) - Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - Efficient Reinforcement Learning with Impaired Observability: Learning
to Act with Delayed and Missing State Observations [92.25604137490168]
本稿では,制御系における効率的な強化学習に関する理論的研究を紹介する。
遅延および欠落した観測条件において,RL に対して $tildemathcalO(sqrtrm poly(H) SAK)$ という形でアルゴリズムを提示し,その上限と下限をほぼ最適に設定する。
論文 参考訳(メタデータ) (2023-06-02T02:46:39Z) - Model-Based Reinforcement Learning with Multinomial Logistic Function Approximation [10.159501412046508]
マルコフ決定過程(MDP)におけるモデルベース強化学習(RL)について検討する。
我々は,多項ロジスティックモデルにより状態遷移が与えられるMPPに対して,証明可能な効率のよいRLアルゴリズムを確立する。
我々の知る限りでは、証明可能な保証付き多項ロジスティック関数近似を用いたモデルベースRLアルゴリズムとしてはこれが初めてである。
論文 参考訳(メタデータ) (2022-12-27T16:25:09Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。
標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。
本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文 参考訳(メタデータ) (2021-12-09T23:13:57Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。