論文の概要: Control Theoretic Analysis of Temporal Difference Learning
- arxiv url: http://arxiv.org/abs/2112.14417v2
- Date: Thu, 30 Dec 2021 13:31:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-03 11:41:19.485363
- Title: Control Theoretic Analysis of Temporal Difference Learning
- Title(参考訳): 時間差学習の制御論的解析
- Authors: Donghwan Lee
- Abstract要約: 本稿では,線形反復アルゴリズムと時間差(TD)学習の制御理論解析について検討する。
TD学習は、マルコフ決定プロセスに対する所定のポリシーの値関数を推定する線形反復アルゴリズムである。
本稿では,線形システム制御コミュニティにおける標準概念を活用した制御理論的有限時間解析TD学習を提案する。
- 参考スコア(独自算出の注目度): 6.85316573653194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this paper is to investigate a control theoretic analysis of
linear stochastic iterative algorithm and temporal difference (TD) learning.
TD-learning is a linear stochastic iterative algorithm to estimate the value
function of a given policy for a Markov decision process, which is one of the
most popular and fundamental reinforcement learning algorithms. While there has
been a series of successful works in theoretical analysis of TD-learning, it
was not until recently that researchers found some guarantees on its
statistical efficiency. In this paper, we propose a control theoretic
finite-time analysis TD-learning, which exploits standard notions in linear
system control communities. Therefore, the proposed work provides additional
insights on TD-learning and reinforcement learning with simple concepts and
analysis tools in control theory.
- Abstract(参考訳): 本稿では,線形確率反復アルゴリズムと時間差学習(TD)の制御理論解析について検討する。
td-learning(td-learning)は、マルコフ決定過程における与えられたポリシーの価値関数を推定するための線形確率的反復アルゴリズムである。
TD-ラーニングの理論分析で成功した研究はいくつかあるが、研究者が統計効率の保証を発見したのは近年になってからである。
本稿では,線形システム制御コミュニティにおける標準概念を活用した制御理論有限時間解析TD学習を提案する。
そこで本研究では,制御理論における単純な概念と分析ツールを用いたTD学習と強化学習について,さらなる知見を提供する。
関連論文リスト
- A Unified and General Framework for Continual Learning [58.72671755989431]
継続学習(CL)は、以前取得した知識を維持しながら、動的かつ変化するデータ分布から学ぶことに焦点を当てている。
正規化ベース、ベイズベース、メモリ再生ベースなど、破滅的な忘れ込みの課題に対処する様々な手法が開発されている。
本研究の目的は,既存の方法論を包含し,整理する包括的かつ包括的な枠組みを導入することで,このギャップを埋めることである。
論文 参考訳(メタデータ) (2024-03-20T02:21:44Z) - Towards a General Framework for Continual Learning with Pre-training [55.88910947643436]
本稿では,事前学習を用いた逐次到着タスクの連続学習のための一般的な枠組みを提案する。
我々はその目的を,タスク内予測,タスク同一性推論,タスク適応予測という3つの階層的構成要素に分解する。
本稿では,パラメータ効率細調整(PEFT)技術と表現統計量を用いて,これらのコンポーネントを明示的に最適化する革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-10-21T02:03:38Z) - Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
本稿では,インストラクションチューニング(IT)の急速な発展分野における研究成果について調査する。
本稿では、指定しない場合を除き、命令チューニング(IT)は教師付き微調整(SFT)と等価である。
論文 参考訳(メタデータ) (2023-08-21T15:35:16Z) - The Statistical Benefits of Quantile Temporal-Difference Learning for
Value Estimation [53.53493178394081]
我々は、分散強化学習アルゴリズムQTD(Quantile temporal-Difference Learning)を用いて分析する。
たとえ実践者が平均を超えるリターン分布に関心がなかったとしても、QTDは古典的なTD学習のような手法よりも優れたパフォーマンスを提供するかもしれない。
論文 参考訳(メタデータ) (2023-05-28T10:52:46Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Backstepping Temporal Difference Learning [3.5823366350053325]
政治外TD学習のための新しい収束アルゴリズムを提案する。
本手法は非線形制御理論において広く用いられているバックステッピング法に依存する。
提案アルゴリズムの収束性は、標準のTD学習が不安定であることが知られている環境で実験的に検証される。
論文 参考訳(メタデータ) (2023-02-20T10:06:49Z) - Finite-Time Analysis of Temporal Difference Learning: Discrete-Time
Linear System Perspective [3.5823366350053325]
TD学習は強化学習(RL)の分野における基礎的アルゴリズムである
最近の研究では、有限時間誤差境界を開発することで、その統計的効率に関する保証を明らかにしている。
論文 参考訳(メタデータ) (2022-04-22T03:21:30Z) - On Data Efficiency of Meta-learning [17.739215706060605]
私たちは、現代のメタ学習アルゴリズムの見落とされがちな側面、すなわちそのデータ効率を研究します。
本稿では,メタラーニング手法を評価するための新しいシンプルなフレームワークを提案する。
本稿では,アクティブなデータ選択を学習学習に取り入れたアクティブなメタラーニングを提案する。
論文 参考訳(メタデータ) (2021-01-30T01:44:12Z) - Improving Few-Shot Learning through Multi-task Representation Learning
Theory [14.8429503385929]
本稿では,MTR(Multi-task representation)学習の枠組みについて考察する。
MTR理論の最近の進歩は、このフレームワーク内で解析すると、一般的なメタ学習アルゴリズムに新しい洞察を与えることができることを示す。
これは、直近のMSR理論の学習境界を、数発の分類のタスクのために実践する最初の貢献である。
論文 参考訳(メタデータ) (2020-10-05T13:24:43Z) - Temporal-Differential Learning in Continuous Environments [12.982941756429952]
時間差分法として知られる新しい強化学習法(RL)を導入する。
継続的環境のための新しいRL技術開発において重要な役割を担っている。
論文 参考訳(メタデータ) (2020-06-01T15:01:03Z) - A Neural Dirichlet Process Mixture Model for Task-Free Continual
Learning [48.87397222244402]
タスクフリー連続学習のための拡張型アプローチを提案する。
我々のモデルは、識別的タスクと生成的タスクの両方に対してタスクフリー連続学習を成功させる。
論文 参考訳(メタデータ) (2020-01-03T02:07:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。