論文の概要: Bellman Meets Hawkes: Model-Based Reinforcement Learning via Temporal
Point Processes
- arxiv url: http://arxiv.org/abs/2201.12569v1
- Date: Sat, 29 Jan 2022 11:53:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 15:18:38.443798
- Title: Bellman Meets Hawkes: Model-Based Reinforcement Learning via Temporal
Point Processes
- Title(参考訳): BellmanのHawkeys: 時間的ポイントプロセスによるモデルベース強化学習
- Authors: Chao Qu, Xiaoyu Tan, Siqiao Xue, Xiaoming Shi, James Zhang, Hongyuan
Mei
- Abstract要約: エージェントが離散的な事象を特徴とする環境に直面する逐次的意思決定問題を考える。
この問題は、ソーシャルメディア、金融、健康情報学において至るところに存在しているが、強化学習における従来の研究によって研究されることは稀である。
本稿では,エージェントの動作と観察が連続的に発生する非同期離散事象であるモデルに基づく強化学習の枠組みを提案する。
- 参考スコア(独自算出の注目度): 8.710154439846816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a sequential decision making problem where the agent faces the
environment characterized by the stochastic discrete events and seeks an
optimal intervention policy such that its long-term reward is maximized. This
problem exists ubiquitously in social media, finance and health informatics but
is rarely investigated by the conventional research in reinforcement learning.
To this end, we present a novel framework of the model-based reinforcement
learning where the agent's actions and observations are asynchronous stochastic
discrete events occurring in continuous-time. We model the dynamics of the
environment by Hawkes process with external intervention control term and
develop an algorithm to embed such process in the Bellman equation which guides
the direction of the value gradient. We demonstrate the superiority of our
method in both synthetic simulator and real-world problem.
- Abstract(参考訳): エージェントが確率的離散事象を特徴とする環境に直面する逐次意思決定問題を検討し,その長期的な報酬を最大化する最適な介入政策を求める。
この問題はソーシャルメディア、ファイナンス、健康情報学において普遍的に存在しているが、従来の強化学習の研究で研究されることは稀である。
そこで本研究では,エージェントの動作と観察が連続的に発生する非同期確率的離散事象であるモデルに基づく強化学習の枠組みを提案する。
我々は,外部介入制御項を用いてホークス過程によって環境のダイナミクスをモデル化し,その過程をベルマン方程式に組み込むアルゴリズムを開発し,値勾配の方向を導く。
合成シミュレータと実世界のどちらにおいても,本手法の優位性を示す。
関連論文リスト
- Fast Value Tracking for Deep Reinforcement Learning [7.648784748888187]
強化学習(Reinforcement Learning, RL)は、環境と対話するエージェントを作成することによって、シーケンシャルな意思決定問題に取り組む。
既存のアルゴリズムはしばしばこれらの問題を静的とみなし、期待される報酬を最大化するためにモデルパラメータの点推定に重点を置いている。
我々の研究は、カルマンパラダイムを活用して、Langevinized Kalman TemporalTDと呼ばれる新しい定量化およびサンプリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-03-19T22:18:19Z) - Entropic Matching for Expectation Propagation of Markov Jump Processes [38.60042579423602]
本稿では,エントロピックマッチングフレームワークに基づく新たなトラクタブル推論手法を提案する。
簡単な近似分布の族に対して閉形式の結果を提供することにより,本手法の有効性を実証する。
我々は、近似予測法を用いて、基礎となるパラメータの点推定のための式を導出する。
論文 参考訳(メタデータ) (2023-09-27T12:07:21Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Conditional Kernel Imitation Learning for Continuous State Environments [9.750698192309978]
条件付きカーネル密度推定に基づく新しい模倣学習フレームワークを提案する。
我々は、多くの最先端ILアルゴリズムよりも一貫して優れた経験的性能を示す。
論文 参考訳(メタデータ) (2023-08-24T05:26:42Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Variational Dynamic for Self-Supervised Exploration in Deep Reinforcement Learning [12.76337275628074]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z) - Modeling of Spatio-Temporal Hawkes Processes with Randomized Kernels [15.556686221927501]
犯罪予測や交通予測など,イベントプロセスのダイナミクスを推測する実践的応用が盛んである。
イベント発生間の励起を捕捉する能力によって一般的に使用される,社会的時間的ホークスプロセスについて紹介する。
空間カーネルの計算をランダム化変換と勾配降下で置き換え,その過程を学習する。
論文 参考訳(メタデータ) (2020-03-07T22:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。