論文の概要: Control Theoretic Analysis of Temporal Difference Learning
- arxiv url: http://arxiv.org/abs/2112.14417v5
- Date: Wed, 30 Aug 2023 06:40:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 18:23:09.575478
- Title: Control Theoretic Analysis of Temporal Difference Learning
- Title(参考訳): 時間差学習の制御論的解析
- Authors: Donghwan Lee and Do Wan Kim
- Abstract要約: TD学習は強化学習の領域の基盤となる。
本稿では,TD学習を解析するための有限時間制御理論フレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.191780076353627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this manuscript is to conduct a controltheoretic analysis of
Temporal Difference (TD) learning algorithms. TD-learning serves as a
cornerstone in the realm of reinforcement learning, offering a methodology for
approximating the value function associated with a given policy in a Markov
Decision Process. Despite several existing works that have contributed to the
theoretical understanding of TD-learning, it is only in recent years that
researchers have been able to establish concrete guarantees on its statistical
efficiency. In this paper, we introduce a finite-time, control-theoretic
framework for analyzing TD-learning, leveraging established concepts from the
field of linear systems control. Consequently, this paper provides additional
insights into the mechanics of TD learning and the broader landscape of
reinforcement learning, all while employing straightforward analytical tools
derived from control theory.
- Abstract(参考訳): この原稿の目的は、時間差学習アルゴリズム(td)の制御論的解析を行うことである。
td-learningは強化学習の領域の基盤となり、マルコフ決定過程において与えられたポリシーに関連する価値関数を近似する手法を提供する。
TD-ラーニングの理論的理解に寄与したいくつかの既存の研究にもかかわらず、研究者がその統計的効率に関する具体的な保証を確立できたのは近年である。
本稿では,線形システム制御の分野から確立された概念を活用し,TD学習を解析するための有限時間制御理論フレームワークを提案する。
そこで本研究では,TD学習の力学と強化学習のより広い展望について,制御理論から導出した簡単な解析ツールを用いて考察する。
関連論文リスト
- A Unified and General Framework for Continual Learning [58.72671755989431]
継続学習(CL)は、以前取得した知識を維持しながら、動的かつ変化するデータ分布から学ぶことに焦点を当てている。
正規化ベース、ベイズベース、メモリ再生ベースなど、破滅的な忘れ込みの課題に対処する様々な手法が開発されている。
本研究の目的は,既存の方法論を包含し,整理する包括的かつ包括的な枠組みを導入することで,このギャップを埋めることである。
論文 参考訳(メタデータ) (2024-03-20T02:21:44Z) - Towards a General Framework for Continual Learning with Pre-training [55.88910947643436]
本稿では,事前学習を用いた逐次到着タスクの連続学習のための一般的な枠組みを提案する。
我々はその目的を,タスク内予測,タスク同一性推論,タスク適応予測という3つの階層的構成要素に分解する。
本稿では,パラメータ効率細調整(PEFT)技術と表現統計量を用いて,これらのコンポーネントを明示的に最適化する革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-10-21T02:03:38Z) - Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
本稿では,インストラクションチューニング(IT)の急速な発展分野における研究成果について調査する。
本稿では、指定しない場合を除き、命令チューニング(IT)は教師付き微調整(SFT)と等価である。
論文 参考訳(メタデータ) (2023-08-21T15:35:16Z) - The Statistical Benefits of Quantile Temporal-Difference Learning for
Value Estimation [53.53493178394081]
我々は、分散強化学習アルゴリズムQTD(Quantile temporal-Difference Learning)を用いて分析する。
たとえ実践者が平均を超えるリターン分布に関心がなかったとしても、QTDは古典的なTD学習のような手法よりも優れたパフォーマンスを提供するかもしれない。
論文 参考訳(メタデータ) (2023-05-28T10:52:46Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Backstepping Temporal Difference Learning [3.5823366350053325]
政治外TD学習のための新しい収束アルゴリズムを提案する。
本手法は非線形制御理論において広く用いられているバックステッピング法に依存する。
提案アルゴリズムの収束性は、標準のTD学習が不安定であることが知られている環境で実験的に検証される。
論文 参考訳(メタデータ) (2023-02-20T10:06:49Z) - Finite-Time Analysis of Temporal Difference Learning: Discrete-Time
Linear System Perspective [3.5823366350053325]
TD学習は強化学習(RL)の分野における基礎的アルゴリズムである
最近の研究では、有限時間誤差境界を開発することで、その統計的効率に関する保証を明らかにしている。
論文 参考訳(メタデータ) (2022-04-22T03:21:30Z) - On Data Efficiency of Meta-learning [17.739215706060605]
私たちは、現代のメタ学習アルゴリズムの見落とされがちな側面、すなわちそのデータ効率を研究します。
本稿では,メタラーニング手法を評価するための新しいシンプルなフレームワークを提案する。
本稿では,アクティブなデータ選択を学習学習に取り入れたアクティブなメタラーニングを提案する。
論文 参考訳(メタデータ) (2021-01-30T01:44:12Z) - Improving Few-Shot Learning through Multi-task Representation Learning
Theory [14.8429503385929]
本稿では,MTR(Multi-task representation)学習の枠組みについて考察する。
MTR理論の最近の進歩は、このフレームワーク内で解析すると、一般的なメタ学習アルゴリズムに新しい洞察を与えることができることを示す。
これは、直近のMSR理論の学習境界を、数発の分類のタスクのために実践する最初の貢献である。
論文 参考訳(メタデータ) (2020-10-05T13:24:43Z) - Temporal-Differential Learning in Continuous Environments [12.982941756429952]
時間差分法として知られる新しい強化学習法(RL)を導入する。
継続的環境のための新しいRL技術開発において重要な役割を担っている。
論文 参考訳(メタデータ) (2020-06-01T15:01:03Z) - A Neural Dirichlet Process Mixture Model for Task-Free Continual
Learning [48.87397222244402]
タスクフリー連続学習のための拡張型アプローチを提案する。
我々のモデルは、識別的タスクと生成的タスクの両方に対してタスクフリー連続学習を成功させる。
論文 参考訳(メタデータ) (2020-01-03T02:07:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。