論文の概要: Managing Temporal Resolution in Continuous Value Estimation: A
Fundamental Trade-off
- arxiv url: http://arxiv.org/abs/2212.08949v1
- Date: Sat, 17 Dec 2022 20:45:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 15:44:30.540054
- Title: Managing Temporal Resolution in Continuous Value Estimation: A
Fundamental Trade-off
- Title(参考訳): 連続価値推定における時間分解能管理--基本トレードオフ
- Authors: Zichen Zhang, Johannes Kirschner, Junxi Zhang, Francesco Zanini, Alex
Ayoub, Masood Dehghan, Dale Schuurmans
- Abstract要約: 値推定における近似と統計的誤差の基本的なトレードオフを示す。
これらの2つのエラーは、時間的離散化に関して異なる振る舞いをする。
これらの結果から,時間分解能の適応によって評価精度が向上することが示唆された。
- 参考スコア(独自算出の注目度): 38.95094400313369
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A default assumption in reinforcement learning and optimal control is that
experience arrives at discrete time points on a fixed clock cycle. Many
applications, however, involve continuous systems where the time discretization
is not fixed but instead can be managed by a learning algorithm. By analyzing
Monte-Carlo value estimation for LQR systems in both finite-horizon and
infinite-horizon settings, we uncover a fundamental trade-off between
approximation and statistical error in value estimation. Importantly, these two
errors behave differently with respect to time discretization, which implies
that there is an optimal choice for the temporal resolution that depends on the
data budget. These findings show how adapting the temporal resolution can
provably improve value estimation quality in LQR systems from finite data.
Empirically, we demonstrate the trade-off in numerical simulations of LQR
instances and several non-linear environments.
- Abstract(参考訳): 強化学習と最適制御におけるデフォルトの仮定は、経験が固定クロックサイクルの離散時間点に到達することである。
しかし、多くのアプリケーションは、時間離散化が固定ではなく、学習アルゴリズムによって管理できる連続システムを含んでいる。
有限水平および無限水平設定におけるLQRシステムのモンテカルロ値推定を解析することにより、値推定における近似と統計的誤差の基本的なトレードオフを明らかにする。
重要なことは、これらの2つのエラーは時間離散化に関して異なる振る舞いをするので、データ予算に依存する時間分解能に最適な選択があることを意味する。
これらの結果は, 時間分解能の適応が有限データからLQRシステムの価値推定品質を向上することを示す。
実験的に,LQRインスタンスと非線形環境の数値シミュレーションにおけるトレードオフを実証する。
関連論文リスト
- Time-Constrained Robust MDPs [28.641743425443]
我々は,多因子性,相関性,時間依存障害を考慮した新しい時間制約型ロバストMDP(TC-RMDP)の定式化を導入する。
本研究では、ロバストなRLにおける一般的な仮定を再考し、より実用的で現実的なRLアプリケーションを開発するための新たな道を開く。
論文 参考訳(メタデータ) (2024-06-12T16:45:09Z) - When to Sense and Control? A Time-adaptive Approach for Continuous-Time RL [37.58940726230092]
離散時間マルコフ決定過程(MDP)の最適化における強化学習(RL)の特長
この課題に対処するRLフレームワークであるTime-Adaptive Control & Sensing(TaCoS)を形式化する。
我々は、TaCoSで訓練された最先端のRLアルゴリズムが、その離散時間に対する相互作用量を劇的に削減できることを実証した。
論文 参考訳(メタデータ) (2024-06-03T09:57:18Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Optimal Conservative Offline RL with General Function Approximation via
Augmented Lagrangian [18.2080757218886]
オフライン強化学習(英語: offline reinforcement learning、RL)とは、かつて収集された相互作用のデータセットから決定を下すことを指す。
一般関数近似と単一政治集中性において統計的に最適で実用的なオフラインRLアルゴリズムの最初のセットを示す。
論文 参考訳(メタデータ) (2022-11-01T19:28:48Z) - Continuous-Time Modeling of Counterfactual Outcomes Using Neural
Controlled Differential Equations [84.42837346400151]
反現実的な結果を予測することは、パーソナライズされたヘルスケアをアンロックする可能性がある。
既存の因果推論アプローチでは、観察と治療決定の間の通常の離散時間間隔が考慮されている。
そこで本研究では,腫瘍増殖モデルに基づく制御可能なシミュレーション環境を提案する。
論文 参考訳(メタデータ) (2022-06-16T17:15:15Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Uncertainty-Based Offline Reinforcement Learning with Diversified
Q-Ensemble [16.92791301062903]
本稿では,Q値予測の信頼性を考慮した不確実性に基づくオフラインRL手法を提案する。
意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。
論文 参考訳(メタデータ) (2021-10-04T16:40:13Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。