論文の概要: On Using Hamiltonian Monte Carlo Sampling for Reinforcement Learning
Problems in High-dimension
- arxiv url: http://arxiv.org/abs/2011.05927v3
- Date: Mon, 28 Mar 2022 17:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 01:14:04.617311
- Title: On Using Hamiltonian Monte Carlo Sampling for Reinforcement Learning
Problems in High-dimension
- Title(参考訳): 高次元強化学習問題に対するハミルトニアンモンテカルロサンプリングの適用について
- Authors: Udari Madhushani, Biswadip Dey, Naomi Ehrich Leonard, Amit Chakraborty
- Abstract要約: Hamiltonian Monte Carlo (HMC) サンプリングは、RLアルゴリズムをトレーニングするためのデータを生成するための抽出可能な方法を提供する。
textitHamiltonian $Q$-Learningと呼ばれるフレームワークを導入し、理論的にも経験的にも、アクション、報酬、状態遷移のHMCサンプルによって生成されたデータセットから$Q$値が学習可能であることを示す。
- 参考スコア(独自算出の注目度): 7.200655637873445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value function based reinforcement learning (RL) algorithms, for example,
$Q$-learning, learn optimal policies from datasets of actions, rewards, and
state transitions. However, when the underlying state transition dynamics are
stochastic and evolve on a high-dimensional space, generating independent and
identically distributed (IID) data samples for creating these datasets poses a
significant challenge due to the intractability of the associated normalizing
integral. In these scenarios, Hamiltonian Monte Carlo (HMC) sampling offers a
computationally tractable way to generate data for training RL algorithms. In
this paper, we introduce a framework, called \textit{Hamiltonian $Q$-Learning},
that demonstrates, both theoretically and empirically, that $Q$ values can be
learned from a dataset generated by HMC samples of actions, rewards, and state
transitions. Furthermore, to exploit the underlying low-rank structure of the
$Q$ function, Hamiltonian $Q$-Learning uses a matrix completion algorithm for
reconstructing the updated $Q$ function from $Q$ value updates over a much
smaller subset of state-action pairs. Thus, by providing an efficient way to
apply $Q$-learning in stochastic, high-dimensional settings, the proposed
approach broadens the scope of RL algorithms for real-world applications.
- Abstract(参考訳): 値関数に基づく強化学習(RL)アルゴリズム、例えば$Q$-learningでは、アクション、報酬、状態遷移のデータセットから最適なポリシを学ぶ。
しかし、基礎となる状態遷移ダイナミクスが確率的かつ高次元空間上で進化する場合、これらのデータセットを作成するための独立かつ同一分散(iid)データサンプルを生成することは、関連する正規化積分の難解性のために大きな課題となる。
これらのシナリオにおいて、ハミルトンモンテカルロサンプリング(HMC)は、RLアルゴリズムを訓練するためのデータを生成する計算可能な方法を提供する。
本稿では,HMCのアクション,報酬,状態遷移のサンプルによって生成されたデータセットから$Q$値が学習できることを理論的にも実証的にも示す,‘textit{Hamiltonian $Q$-Learning}’というフレームワークを紹介する。
さらに、$Q$関数の下位の低ランク構造を利用するために、Hamiltonian $Q$-Learningは、更新された$Q$関数を、より小さな状態-作用ペアのサブセット上での$Q$値更新から再構築するための行列補完アルゴリズムを使用する。
したがって、確率的かつ高次元の設定でq$-learningを適用する効率的な方法を提供することにより、提案手法は実世界のアプリケーションに対するrlアルゴリズムの範囲を広げる。
関連論文リスト
- Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning
with General Function Approximation [66.26739783789387]
我々は、強化学習のための新しいアルゴリズム、MQL-UCBを用いたモノトニックQ-Learningを提案する。
MQL-UCBは、$tildeO(dsqrtHK)$の最小限の後悔を実現する。
本研究は,非線形関数近似を用いたサンプル効率およびデプロイメント効率のよいQ-ラーニングの設計に重点を置いている。
論文 参考訳(メタデータ) (2023-11-26T08:31:57Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。
標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。
本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文 参考訳(メタデータ) (2021-12-09T23:13:57Z) - Learning the hypotheses space from data through a U-curve algorithm: a
statistically consistent complexity regularizer for Model Selection [0.0]
本稿では, モデル選択に対するデータ駆動型, 一貫性, 非排他的アプローチを提案する。
我々の主な貢献は、$mathbbL(mathcalH)$上で正規化モデル選択を行うデータ駆動の一般学習アルゴリズムである。
このアプローチの顕著な結果は、$mathbbL(mathcalH)$の非排他的探索が最適解を返すことができる条件である。
論文 参考訳(メタデータ) (2021-09-08T18:28:56Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。