論文の概要: Temporal-Differential Learning in Continuous Environments
- arxiv url: http://arxiv.org/abs/2006.00997v1
- Date: Mon, 1 Jun 2020 15:01:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 06:30:01.589520
- Title: Temporal-Differential Learning in Continuous Environments
- Title(参考訳): 連続環境における時間差学習
- Authors: Tao Bian and Zhong-Ping Jiang
- Abstract要約: 時間差分法として知られる新しい強化学習法(RL)を導入する。
継続的環境のための新しいRL技術開発において重要な役割を担っている。
- 参考スコア(独自算出の注目度): 12.982941756429952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, a new reinforcement learning (RL) method known as the method
of temporal differential is introduced. Compared to the traditional
temporal-difference learning method, it plays a crucial role in developing
novel RL techniques for continuous environments. In particular, the
continuous-time least squares policy evaluation (CT-LSPE) and the
continuous-time temporal-differential (CT-TD) learning methods are developed.
Both theoretical and empirical evidences are provided to demonstrate the
effectiveness of the proposed temporal-differential learning methodology.
- Abstract(参考訳): 本稿では,時間差分法として知られる新しい強化学習法を提案する。
従来の時間微分学習法と比較して,連続環境における新しいrl手法の開発において重要な役割を担っている。
特に、連続時間最小二乗政策評価(CT-LSPE)と連続時間時間時間微分(CT-TD)学習法を開発した。
提案した時間差分学習手法の有効性を示す理論的および実証的な証拠が提供される。
関連論文リスト
- A Unified and General Framework for Continual Learning [58.72671755989431]
継続学習(CL)は、以前取得した知識を維持しながら、動的かつ変化するデータ分布から学ぶことに焦点を当てている。
正規化ベース、ベイズベース、メモリ再生ベースなど、破滅的な忘れ込みの課題に対処する様々な手法が開発されている。
本研究の目的は,既存の方法論を包含し,整理する包括的かつ包括的な枠組みを導入することで,このギャップを埋めることである。
論文 参考訳(メタデータ) (2024-03-20T02:21:44Z) - Revisiting the Temporal Modeling in Spatio-Temporal Predictive Learning
under A Unified View [73.73667848619343]
UTEP(Unified S-Temporal Predictive Learning)は,マイクロテンポラリスケールとマクロテンポラリスケールを統合した再帰的および再帰的フリーな手法を再構築する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2023-10-09T16:17:42Z) - The Statistical Benefits of Quantile Temporal-Difference Learning for
Value Estimation [53.53493178394081]
我々は、分散強化学習アルゴリズムQTD(Quantile temporal-Difference Learning)を用いて分析する。
たとえ実践者が平均を超えるリターン分布に関心がなかったとしても、QTDは古典的なTD学習のような手法よりも優れたパフォーマンスを提供するかもしれない。
論文 参考訳(メタデータ) (2023-05-28T10:52:46Z) - Backstepping Temporal Difference Learning [3.5823366350053325]
政治外TD学習のための新しい収束アルゴリズムを提案する。
本手法は非線形制御理論において広く用いられているバックステッピング法に依存する。
提案アルゴリズムの収束性は、標準のTD学習が不安定であることが知られている環境で実験的に検証される。
論文 参考訳(メタデータ) (2023-02-20T10:06:49Z) - Finite-Time Analysis of Temporal Difference Learning: Discrete-Time
Linear System Perspective [3.5823366350053325]
TD学習は強化学習(RL)の分野における基礎的アルゴリズムである
最近の研究では、有限時間誤差境界を開発することで、その統計的効率に関する保証を明らかにしている。
論文 参考訳(メタデータ) (2022-04-22T03:21:30Z) - Control Theoretic Analysis of Temporal Difference Learning [7.191780076353627]
TD学習は強化学習の領域の基盤となる。
本稿では,TD学習を解析するための有限時間制御理論フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T06:43:29Z) - Online Bootstrap Inference For Policy Evaluation in Reinforcement
Learning [90.59143158534849]
近年の強化学習の出現は、頑健な統計的推論手法の需要を生み出している。
オンライン学習における統計的推論の既存の方法は、独立してサンプリングされた観察を含む設定に限られる。
オンラインブートストラップは線形近似アルゴリズムにおける統計的推測のための柔軟で効率的な手法であるが、マルコフノイズを含む設定における有効性はまだ検討されていない。
論文 参考訳(メタデータ) (2021-08-08T18:26:35Z) - Towards Continual Reinforcement Learning: A Review and Perspectives [69.48324517535549]
我々は,連続的強化学習(RL)に対する異なる定式化とアプローチの文献レビューの提供を目的とする。
まだ初期段階だが、継続的なrlの研究は、よりインクリメンタルな強化学習者を開発することを約束している。
これには、医療、教育、物流、ロボット工学などの分野の応用が含まれる。
論文 参考訳(メタデータ) (2020-12-25T02:35:27Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。