論文の概要: A General Control-Theoretic Approach for Reinforcement Learning: Theory and Algorithms
- arxiv url: http://arxiv.org/abs/2406.14753v3
- Date: Wed, 27 Nov 2024 20:34:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 20:28:07.311535
- Title: A General Control-Theoretic Approach for Reinforcement Learning: Theory and Algorithms
- Title(参考訳): 強化学習のための一般制御-理論的アプローチ:理論とアルゴリズム
- Authors: Weiqin Chen, Mark S. Squillante, Chai Wah Wu, Santiago Paternain,
- Abstract要約: 最適政策の直接学習を支援するための制御理論強化学習手法を考案する。
いくつかの古典的強化学習課題における制御理論的手法の性能を実証的に評価した。
- 参考スコア(独自算出の注目度): 7.081523472610874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We devise a control-theoretic reinforcement learning approach to support direct learning of the optimal policy. We establish various theoretical properties of our approach, such as convergence and optimality of our analog of the Bellman operator and Q-learning, a new control-policy-variable gradient theorem, and a specific gradient ascent algorithm based on this theorem within the context of a specific control-theoretic framework. We empirically evaluate the performance of our control theoretic approach on several classical reinforcement learning tasks, demonstrating significant improvements in solution quality, sample complexity, and running time of our approach over state-of-the-art methods.
- Abstract(参考訳): 最適政策の直接学習を支援するための制御理論強化学習手法を考案する。
我々は、ベルマン作用素とQラーニングのアナログの収束と最適性、新しい制御-政治-可変勾配定理、および特定の制御-理論フレームワークの文脈におけるこの定理に基づく特定の勾配上昇アルゴリズムなど、このアプローチの様々な理論的特性を確立する。
いくつかの古典的強化学習課題における制御理論的手法の性能を実証的に評価し、現状の手法よりも解の質、サンプルの複雑さ、実行時間を大幅に改善したことを示す。
関連論文リスト
- Policy Optimization Algorithms in a Unified Framework [7.942953533690871]
一般化エルゴード性理論は、プロセスの定常挙動に光を当てる。
摂動解析は、ポリシー最適化アルゴリズムの基本原理に関する洞察を提供する。
我々は,政策最適化アルゴリズムをよりアクセスしやすくし,その誤用を減らすことを目的としている。
論文 参考訳(メタデータ) (2025-04-04T10:14:01Z) - RL-finetuning LLMs from on- and off-policy data with a single algorithm [53.70731390624718]
大規模言語モデルを微調整するための新しい強化学習アルゴリズム(AGRO)を提案する。
AGROは生成整合性の概念を利用しており、最適ポリシーはモデルの任意の世代間での整合性の概念を満たすと述べている。
サンプルベースの政策勾配による最適解を求めるアルゴリズムを導出し,その収束に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2025-03-25T12:52:38Z) - A Pontryagin Perspective on Reinforcement Learning [11.56175346731332]
固定アクションシーケンスを代わりに学習するオープンループ強化学習のパラダイムを導入する。
1つの頑健なモデルベース法と2つのサンプル効率なモデルフリー法という3つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-28T12:05:20Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Distributional Bellman Operators over Mean Embeddings [37.5480897544168]
本研究では,帰還分布の有限次元平均埋め込みを学習し,分布強化学習のための新しい枠組みを提案する。
動的プログラミングと時間差学習のための新しいアルゴリズムをこのフレームワークに基づいて提案する。
論文 参考訳(メタデータ) (2023-12-09T11:36:14Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Towards a Theoretical Foundation of Policy Optimization for Learning
Control Policies [26.04704565406123]
グラディエントベースの手法は、様々なアプリケーション領域におけるシステム設計と最適化に広く使われてきた。
近年、制御と強化学習の文脈において、これらの手法の理論的性質の研究に新たな関心が寄せられている。
本稿では、フィードバック制御合成のための勾配に基づく反復的アプローチであるポリシー最適化に関する最近の開発について概説する。
論文 参考訳(メタデータ) (2022-10-10T16:13:34Z) - Generalized Policy Improvement Algorithms with Theoretically Supported Sample Reuse [15.134707391442236]
我々は,データ駆動型学習ベース制御のためのモデルフリー深層強化学習アルゴリズムを新たに開発した。
当社の一般政策改善アルゴリズムは,オンライン手法の政策改善保証とサンプル再利用の効率化を両立させる。
論文 参考訳(メタデータ) (2022-06-28T02:56:12Z) - FedControl: When Control Theory Meets Federated Learning [63.96013144017572]
ローカル学習のパフォーマンスと進化に応じてクライアントのコントリビューションを区別する。
この手法は制御理論から着想を得ており、その分類性能はIIDフレームワークで広く評価されている。
論文 参考訳(メタデータ) (2022-05-27T21:05:52Z) - Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive
Control [0.0]
値空間とロールアウトの近似に関するAlphaZero/TDGammonの原理が決定論的かつ最適制御問題に広く適用されていることを示す。
これらの考え方は、モデル制御、適応制御、分散制御、ニューラルネットワークに基づく値とポリシー近似など、他の重要な方法論と効果的に統合することができる。
論文 参考訳(メタデータ) (2021-08-20T19:17:35Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Optimal Energy Shaping via Neural Approximators [16.879710744315233]
古典的受動性に基づく制御手法の強化として,最適エネルギー整形を導入する。
パッシブコントロールフレームワークのパフォーマンスを調整するための体系的なアプローチはまだ開発されていない。
論文 参考訳(メタデータ) (2021-01-14T10:25:58Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。