論文の概要: An Idiosyncrasy of Time-discretization in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2406.14951v1
- Date: Fri, 21 Jun 2024 08:03:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 14:23:19.098601
- Title: An Idiosyncrasy of Time-discretization in Reinforcement Learning
- Title(参考訳): 強化学習における時間差分化の慣用性
- Authors: Kris De Asis, Richard S. Sutton,
- Abstract要約: 離散化の選択が強化学習アルゴリズムに与える影響について検討する。
我々は離散時間アルゴリズムを離散化された連続時間環境に適用することで、慣用性を認めている。
- 参考スコア(独自算出の注目度): 7.085780872622857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many reinforcement learning algorithms are built on an assumption that an agent interacts with an environment over fixed-duration, discrete time steps. However, physical systems are continuous in time, requiring a choice of time-discretization granularity when digitally controlling them. Furthermore, such systems do not wait for decisions to be made before advancing the environment state, necessitating the study of how the choice of discretization may affect a reinforcement learning algorithm. In this work, we consider the relationship between the definitions of the continuous-time and discrete-time returns. Specifically, we acknowledge an idiosyncrasy with naively applying a discrete-time algorithm to a discretized continuous-time environment, and note how a simple modification can better align the return definitions. This observation is of practical consideration when dealing with environments where time-discretization granularity is a choice, or situations where such granularity is inherently stochastic.
- Abstract(参考訳): 多くの強化学習アルゴリズムは、エージェントが固定的な時間ステップで環境と相互作用するという仮定に基づいて構築される。
しかし、物理系は時間的に連続しており、デジタル的に制御するには時間差の粒度を選択する必要がある。
さらに、このようなシステムは環境状態の進行に先立って決定が下されるのを待たず、離散化の選択が強化学習アルゴリズムにどのように影響するかを研究する必要がある。
本研究では,連続時間と離散時間の関係について考察する。
具体的には、離散時間アルゴリズムを離散化された連続時間環境に適用し、簡単な修正で戻り値の定義をよりよく整合させることができることに留意する。
この観察は、時間差の粒度が選択される環境や、そのような粒度が本質的に確率的な環境を扱う場合の実践的考察である。
関連論文リスト
- Learning Temporal Distances: Contrastive Successor Features Can Provide a Metric Structure for Decision-Making [66.27188304203217]
時間的距離は、計画、制御、強化学習のための多くのアルゴリズムの中心にある。
このような時間的距離を設定内で定義しようとする以前の試みは、重要な制限によって妨げられている。
比較学習によって学習された後継特徴が,三角形の不等式を満たす時間的距離を形成することを示す。
論文 参考訳(メタデータ) (2024-06-24T19:36:45Z) - When and How: Learning Identifiable Latent States for Nonstationary Time Series Forecasting [22.915008205203886]
識別可能なlatEnt stAtes (IDEA) を学習し、分布シフトの発生を検知する。
さらに、定常状態と非定常状態とを十分な観測仮定で切り離して、潜在状態がどのように変化するかを学ぶ。
これらの理論に基づいて,自己回帰型隠れマルコフモデルを用いて潜伏環境を推定するIDEAモデルを考案した。
論文 参考訳(メタデータ) (2024-02-20T07:16:12Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - Continuous-Time Modeling of Counterfactual Outcomes Using Neural
Controlled Differential Equations [84.42837346400151]
反現実的な結果を予測することは、パーソナライズされたヘルスケアをアンロックする可能性がある。
既存の因果推論アプローチでは、観察と治療決定の間の通常の離散時間間隔が考慮されている。
そこで本研究では,腫瘍増殖モデルに基づく制御可能なシミュレーション環境を提案する。
論文 参考訳(メタデータ) (2022-06-16T17:15:15Z) - Reconstructing a dynamical system and forecasting time series by
self-consistent deep learning [4.947248396489835]
ノイズの多い決定論的時系列に自己一貫性のあるディープラーニングフレームワークを導入する。
教師なしフィルタリング、状態空間再構成、基礎となる微分方程式の同定、予測を提供する。
論文 参考訳(メタデータ) (2021-08-04T06:10:58Z) - A Temporal Kernel Approach for Deep Learning with Continuous-time
Information [18.204325860752768]
RNN、因果CNN、注意メカニズムなどのシーケンスディープラーニングモデルは、連続時間情報を容易に消費しません。
時間的データの離散化は、単純な連続時間プロセスにおいても不整合を引き起こす。
我々は,ディープラーニングツールを用いた連続時間システムの特徴付け手法を提案する。
論文 参考訳(メタデータ) (2021-03-28T20:13:53Z) - Contrastive learning of strong-mixing continuous-time stochastic
processes [53.82893653745542]
コントラスト学習(Contrastive Learning)は、ラベルのないデータから構築された分類タスクを解決するためにモデルを訓練する自己指導型の手法のファミリーである。
拡散の場合,小~中距離間隔の遷移カーネルを適切に構築したコントラスト学習タスクを用いて推定できることが示される。
論文 参考訳(メタデータ) (2021-03-03T23:06:47Z) - POMDPs in Continuous Time and Discrete Spaces [28.463792234064805]
このような離散状態と行動空間系における最適決定の問題は、部分的可観測性の下で考慮する。
連続時間部分観測可能なマルコフ決定過程(POMDP)の数学的記述を与える。
本稿では,価値関数の近似を学習することで,決定問題をオフラインで解く手法と,深層強化学習を用いた信念空間の解を提供するオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-02T14:04:32Z) - CaSPR: Learning Canonical Spatiotemporal Point Cloud Representations [72.4716073597902]
本研究では,動的あるいは動いた物体の標準点クラウド表現を学習する手法を提案する。
本稿では, 形状再構成, カメラポーズ推定, 連続時間列再構成, 対応推定など, 様々な応用における本手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-08-06T17:58:48Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。