論文の概要: A General Control-Theoretic Approach for Reinforcement Learning: Theory and Algorithms
- arxiv url: http://arxiv.org/abs/2406.14753v3
- Date: Wed, 27 Nov 2024 20:34:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:15:18.149353
- Title: A General Control-Theoretic Approach for Reinforcement Learning: Theory and Algorithms
- Title(参考訳): 強化学習のための一般制御-理論的アプローチ:理論とアルゴリズム
- Authors: Weiqin Chen, Mark S. Squillante, Chai Wah Wu, Santiago Paternain,
- Abstract要約: 最適政策の直接学習を支援するための制御理論強化学習手法を考案する。
いくつかの古典的強化学習課題における制御理論的手法の性能を実証的に評価した。
- 参考スコア(独自算出の注目度): 7.081523472610874
- License:
- Abstract: We devise a control-theoretic reinforcement learning approach to support direct learning of the optimal policy. We establish various theoretical properties of our approach, such as convergence and optimality of our analog of the Bellman operator and Q-learning, a new control-policy-variable gradient theorem, and a specific gradient ascent algorithm based on this theorem within the context of a specific control-theoretic framework. We empirically evaluate the performance of our control theoretic approach on several classical reinforcement learning tasks, demonstrating significant improvements in solution quality, sample complexity, and running time of our approach over state-of-the-art methods.
- Abstract(参考訳): 最適政策の直接学習を支援するための制御理論強化学習手法を考案する。
我々は、ベルマン作用素とQラーニングのアナログの収束と最適性、新しい制御-政治-可変勾配定理、および特定の制御-理論フレームワークの文脈におけるこの定理に基づく特定の勾配上昇アルゴリズムなど、このアプローチの様々な理論的特性を確立する。
いくつかの古典的強化学習課題における制御理論的手法の性能を実証的に評価し、現状の手法よりも解の質、サンプルの複雑さ、実行時間を大幅に改善したことを示す。
関連論文リスト
- A Pontryagin Perspective on Reinforcement Learning [11.56175346731332]
固定アクションシーケンスを代わりに学習するオープンループ強化学習のパラダイムを導入する。
1つの頑健なモデルベース法と2つのサンプル効率なモデルフリー法という3つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-28T12:05:20Z) - Distributional Bellman Operators over Mean Embeddings [37.5480897544168]
本研究では,帰還分布の有限次元平均埋め込みを学習し,分布強化学習のための新しい枠組みを提案する。
動的プログラミングと時間差学習のための新しいアルゴリズムをこのフレームワークに基づいて提案する。
論文 参考訳(メタデータ) (2023-12-09T11:36:14Z) - Meta-Learning Strategies through Value Maximization in Neural Networks [7.285835869818669]
完全に規範的な目的に対して制御信号を効率よく最適化できる学習活動フレームワークを提案する。
本稿では,一般的なメタ学習アルゴリズムにおける近似の影響について検討する。
設定全体では、学習の早い段階でタスクの容易な側面に適用する場合、制御の取り組みが最も有益であることが分かります。
論文 参考訳(メタデータ) (2023-10-30T18:29:26Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Towards a Theoretical Foundation of Policy Optimization for Learning
Control Policies [26.04704565406123]
グラディエントベースの手法は、様々なアプリケーション領域におけるシステム設計と最適化に広く使われてきた。
近年、制御と強化学習の文脈において、これらの手法の理論的性質の研究に新たな関心が寄せられている。
本稿では、フィードバック制御合成のための勾配に基づく反復的アプローチであるポリシー最適化に関する最近の開発について概説する。
論文 参考訳(メタデータ) (2022-10-10T16:13:34Z) - Generalized Policy Improvement Algorithms with Theoretically Supported Sample Reuse [15.134707391442236]
我々は,データ駆動型学習ベース制御のためのモデルフリー深層強化学習アルゴリズムを新たに開発した。
当社の一般政策改善アルゴリズムは,オンライン手法の政策改善保証とサンプル再利用の効率化を両立させる。
論文 参考訳(メタデータ) (2022-06-28T02:56:12Z) - FedControl: When Control Theory Meets Federated Learning [63.96013144017572]
ローカル学習のパフォーマンスと進化に応じてクライアントのコントリビューションを区別する。
この手法は制御理論から着想を得ており、その分類性能はIIDフレームワークで広く評価されている。
論文 参考訳(メタデータ) (2022-05-27T21:05:52Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。