論文の概要: Hyperspace Neighbor Penetration Approach to Dynamic Programming for
Model-Based Reinforcement Learning Problems with Slowly Changing Variables in
A Continuous State Space
- arxiv url: http://arxiv.org/abs/2106.05497v1
- Date: Thu, 10 Jun 2021 04:58:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-12 20:03:04.471982
- Title: Hyperspace Neighbor Penetration Approach to Dynamic Programming for
Model-Based Reinforcement Learning Problems with Slowly Changing Variables in
A Continuous State Space
- Title(参考訳): 連続状態空間における変化の遅いモデルベース強化学習問題に対するハイパースペース近傍の動的プログラミング
- Authors: Vincent Zha, Ivey Chiu, Alexandre Guilbault, and Jaime Tatis
- Abstract要約: 本稿では,強化学習における変数のゆるやかに変化する問題に対処するHyperspace Neighbor Peretration (HNP) アプローチを提案する。
HNPは、各遷移ステップで状態の部分的な「貫通」を、格子状超空間内の隣接する超タイルにキャプチャする。
要約すると、HNPは強化学習においてゆっくりと変化する変数を扱う場合、古典的な方法よりも桁違いに効率的である。
- 参考スコア(独自算出の注目度): 58.720142291102135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Slowly changing variables in a continuous state space constitute an important
category of reinforcement learning and see its application in many domains,
such as modeling a climate control system where temperature, humidity, etc.
change slowly over time. However, this subject is less addressed in recent
studies. Classical methods with certain variants, such as Dynamic Programming
with Tile Coding which discretizes the state space, fail to handle slowly
changing variables because those methods cannot capture the tiny changes in
each transition step, as it is computationally expensive or impossible to
establish an extremely granular grid system. In this paper, we introduce a
Hyperspace Neighbor Penetration (HNP) approach that solves the problem. HNP
captures in each transition step the state's partial "penetration" into its
neighboring hyper-tiles in the gridded hyperspace, thus does not require the
transition to be inter-tile in order for the change to be captured. Therefore,
HNP allows for a very coarse grid system, which makes the computation feasible.
HNP assumes near linearity of the transition function in a local space, which
is commonly satisfied. In summary, HNP can be orders of magnitude more
efficient than classical method in handling slowly changing variables in
reinforcement learning. We have made an industrial implementation of NHP with a
great success.
- Abstract(参考訳): 連続状態空間における変数のゆるやかな変化は強化学習の重要なカテゴリであり、温度や湿度などの気候制御システムのモデル化など、多くの領域で応用されている。
時間とともにゆっくり変化します
しかし、近年の研究ではこの問題に対処していない。
状態空間を離散化する動的プログラミングとタイル符号化のような、ある変種を持つ古典的な手法は、非常に粒度の細かいグリッドシステムを確立するのに計算コストがかかるか不可能であるため、各遷移ステップの小さな変化を捉えることができないため、ゆっくりと変化する変数を扱うことができない。
本稿では,その問題を解決するHyperspace Neighbor Peretration(HNP)アプローチを提案する。
HNPは、各遷移ステップで状態の部分的な「貫通」を、グリッド化されたハイパースペース内の隣接するハイパータイルにキャプチャするので、変更をキャプチャするために、遷移をタイル間とする必要はない。
したがって、HNPは非常に粗いグリッドシステムが可能であり、計算が実現可能である。
HNP は局所空間における遷移関数の概線型性を仮定するが、これは一般に満足される。
要約すると、HNPは強化学習においてゆっくりと変化する変数を扱う場合、古典的な方法よりも桁違いに効率的である。
我々はNHPの産業的実装を大成功を収めた。
関連論文リスト
- Active search for Bifurcations [0.0]
本研究では,ベイズ最適化を応用してサドルノードやホップ分岐を発見する能動的学習フレームワークを提案する。
本質的なシステムにおける不確実性定量化の枠組みを提供する。
また、資源限定の宇宙探査システムにおける不確実性定量化のためのフレームワークも提供する。
論文 参考訳(メタデータ) (2024-06-17T02:01:17Z) - SC-GS: Sparse-Controlled Gaussian Splatting for Editable Dynamic Scenes [59.23385953161328]
動的シーンのための新しいビュー合成は、コンピュータビジョンとグラフィックスにおいて依然として難しい問題である。
本稿では,動的シーンの動作と外観を疎制御点と高密度ガウスに明示的に分解する新しい表現を提案する。
提案手法は,高忠実度な外観を維持しつつ,ユーザ制御のモーション編集を可能にする。
論文 参考訳(メタデータ) (2023-12-04T11:57:14Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Numerical Methods for Convex Multistage Stochastic Optimization [86.45244607927732]
最適化プログラミング(SP)、最適制御(SOC)、決定プロセス(MDP)に焦点を当てる。
凸多段マルコフ問題の解決の最近の進歩は、動的プログラミング方程式のコスト対ゴー関数の切断面近似に基づいている。
切削平面型法は多段階問題を多段階的に扱えるが、状態(決定)変数は比較的少ない。
論文 参考訳(メタデータ) (2023-03-28T01:30:40Z) - Implicit Neural Spatial Representations for Time-dependent PDEs [29.404161110513616]
Inlicit Neural Spatial Representation (INSR) は空間依存ベクトル場の効果的な表現として登場した。
本研究は,INSRを用いた時間依存型PDEの解法について検討する。
論文 参考訳(メタデータ) (2022-09-30T22:46:40Z) - Avoiding barren plateaus via transferability of smooth solutions in
Hamiltonian Variational Ansatz [0.0]
変分量子アルゴリズム(VQA)は、現在の量子デバイス上で計算スピードアップを達成するための主要な候補である。
2つの大きなハードルは、低品質な局所最小値の増殖と、コスト関数のランドスケープにおける勾配の指数的な消失である。
ここでは、反復探索方式を用いることで、パラダイム的量子多体モデルの基底状態を効果的に作成できることを示す。
論文 参考訳(メタデータ) (2022-06-04T12:52:29Z) - Error-Correcting Neural Networks for Semi-Lagrangian Advection in the
Level-Set Method [0.0]
本稿では,画像超解像技術とスカラートランスポートを融合した機械学習フレームワークを提案する。
我々は,インターフェースの粗いメッシュ進化における数値粘度を最小化するために,オンザフライデータ駆動補正を計算できるかどうかを検討する。
論文 参考訳(メタデータ) (2021-10-22T06:36:15Z) - DySMHO: Data-Driven Discovery of Governing Equations for Dynamical
Systems via Moving Horizon Optimization [77.34726150561087]
本稿では,スケーラブルな機械学習フレームワークである移動水平最適化(DySMHO)による動的システムの発見について紹介する。
DySMHOは、基底関数の大きな辞書から基礎となる支配方程式を逐次学習する。
標準非線形力学系の例は、DySMHOが規則を正確に回復できることを示すために用いられる。
論文 参考訳(メタデータ) (2021-07-30T20:35:03Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Exploring entanglement and optimization within the Hamiltonian
Variational Ansatz [0.4881924950569191]
我々は、ハミルトン変分アンザッツ(HVA)と呼ばれる量子回路の族を研究する。
HVAは、穏やかまたは完全に欠落したバレン高原や制限された状態空間などの良好な構造特性を示す。
HVAは、環上の修正ハルデン・シャストリー・ハミルトニアンの基底状態に対する正確な近似を見つけることができる。
論文 参考訳(メタデータ) (2020-08-07T01:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。