論文の概要: A General Control-Theoretic Approach for Reinforcement Learning: Theory and Algorithms
- arxiv url: http://arxiv.org/abs/2406.14753v1
- Date: Thu, 20 Jun 2024 21:50:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 15:22:05.841820
- Title: A General Control-Theoretic Approach for Reinforcement Learning: Theory and Algorithms
- Title(参考訳): 強化学習のための一般制御-理論的アプローチ:理論とアルゴリズム
- Authors: Weiqin Chen, Mark S. Squillante, Chai Wah Wu, Santiago Paternain,
- Abstract要約: 最適政策の直接学習を支援するための制御理論強化学習手法を考案する。
我々は,このアプローチの理論的特性を確立し,このアプローチの特定の例に基づいてアルゴリズムを導出する。
- 参考スコア(独自算出の注目度): 7.081523472610874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We devise a control-theoretic reinforcement learning approach to support direct learning of the optimal policy. We establish theoretical properties of our approach and derive an algorithm based on a specific instance of this approach. Our empirical results demonstrate the significant benefits of our approach.
- Abstract(参考訳): 最適政策の直接学習を支援するための制御理論強化学習手法を考案する。
我々は,このアプローチの理論的特性を確立し,このアプローチの特定の例に基づいてアルゴリズムを導出する。
私たちの経験的結果は、我々のアプローチの大きな利点を示しています。
関連論文リスト
- A Pontryagin Perspective on Reinforcement Learning [11.56175346731332]
固定アクションシーケンスを代わりに学習するオープンループ強化学習のパラダイムを導入する。
1つの頑健なモデルベース法と2つのサンプル効率なモデルフリー法という3つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-28T12:05:20Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Towards a Theoretical Foundation of Policy Optimization for Learning
Control Policies [26.04704565406123]
グラディエントベースの手法は、様々なアプリケーション領域におけるシステム設計と最適化に広く使われてきた。
近年、制御と強化学習の文脈において、これらの手法の理論的性質の研究に新たな関心が寄せられている。
本稿では、フィードバック制御合成のための勾配に基づく反復的アプローチであるポリシー最適化に関する最近の開発について概説する。
論文 参考訳(メタデータ) (2022-10-10T16:13:34Z) - Generalized Policy Improvement Algorithms with Theoretically Supported Sample Reuse [15.134707391442236]
我々は,データ駆動型学習ベース制御のためのモデルフリー深層強化学習アルゴリズムを新たに開発した。
当社の一般政策改善アルゴリズムは,オンライン手法の政策改善保証とサンプル再利用の効率化を両立させる。
論文 参考訳(メタデータ) (2022-06-28T02:56:12Z) - FedControl: When Control Theory Meets Federated Learning [63.96013144017572]
ローカル学習のパフォーマンスと進化に応じてクライアントのコントリビューションを区別する。
この手法は制御理論から着想を得ており、その分類性能はIIDフレームワークで広く評価されている。
論文 参考訳(メタデータ) (2022-05-27T21:05:52Z) - Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive
Control [0.0]
値空間とロールアウトの近似に関するAlphaZero/TDGammonの原理が決定論的かつ最適制御問題に広く適用されていることを示す。
これらの考え方は、モデル制御、適応制御、分散制御、ニューラルネットワークに基づく値とポリシー近似など、他の重要な方法論と効果的に統合することができる。
論文 参考訳(メタデータ) (2021-08-20T19:17:35Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Optimal Energy Shaping via Neural Approximators [16.879710744315233]
古典的受動性に基づく制御手法の強化として,最適エネルギー整形を導入する。
パッシブコントロールフレームワークのパフォーマンスを調整するための体系的なアプローチはまだ開発されていない。
論文 参考訳(メタデータ) (2021-01-14T10:25:58Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。