論文の概要: Chebyshev Policies and the Mountain Car Problem: Reinforcement Learning for Low-Dimensional Control Tasks
- arxiv url: http://arxiv.org/abs/2605.22305v1
- Date: Thu, 21 May 2026 10:54:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.552796
- Title: Chebyshev Policies and the Mountain Car Problem: Reinforcement Learning for Low-Dimensional Control Tasks
- Title(参考訳): チェビシェフ政策とマウンテンカー問題:低次元制御タスクの強化学習
- Authors: Stefan Huber, Hannes Unger, Georg Schäfer, Jakob Rehrl,
- Abstract要約: 我々は、RLの標準ベンチマークであるマウンテンカー問題を解析的に解き、最適制御解を導出する。
我々は、チェビシェフポリシーを第一原理から普遍的な(すなわち密度の高い)RLポリシーのクラスとして導入する。
ニューラルネットのドロップイン置換として訓練することができ、後悔を4.18倍に減らし、277倍のパラメータを必要とする。
- 参考スコア(独自算出の注目度): 0.40831821256838124
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We analytically solve the Mountain Car problem, a canonical benchmark in RL, and derive an optimal control solution, closing a gap after 36 years. This enables us to reveal two surprising insights: The optimal control is quite simple, yet modern RL agents display a large gap to optimality. Motivated by the analysis of the optimal control, we introduce Chebyshev policies as a universal (i.e. dense) class of RL policies from first principles. They can be trained as drop-in replacements of neural nets, reducing the regret by a factor of 4.18, while requiring 277 times fewer parameters, fostering sample efficiency, explainability and realtime capability. Chebyshev policies are evaluated on further RL tasks, including a real-world nonlinear motion control testbed. They consistently improve performance over neural nets with PPO, ARS and REINFORCE. Our results demonstrate how Chebyshev policies offer a compelling and lightweight alternative or addition to neural nets for low-dimensional control tasks.
- Abstract(参考訳): 我々は、RLの標準ベンチマークであるマウンテンカー問題を解析的に解き、36年後のギャップを埋める最適な制御ソリューションを導出した。
最適制御は非常に単純だが、現代のRLエージェントは最適性に大きなギャップを示す。
最適制御の分析により、第一原理からチェビシェフポリシーを普遍的な(すなわち密度の高い)RLポリシーのクラスとして導入する。
それらはニューラルネットのドロップイン置換として訓練され、後悔を4.18倍に減らし、パラメータを277倍少なくし、サンプル効率、説明可能性、リアルタイム能力を向上させる。
チェビシェフのポリシーは、実世界の非線形モーションコントロールテストベッドを含むさらなるRLタスクで評価される。
PPO、ARS、REINFORCEでニューラルネットの性能を継続的に改善する。
我々の結果は、Chebyshevポリシーがいかに魅力的で軽量な代替手段や、低次元制御タスクのためのニューラルネットを提供するかを実証している。
関連論文リスト
- Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。
オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文 参考訳(メタデータ) (2024-12-09T17:28:03Z) - Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning [18.579378919155864]
我々は、追加のサンプルを必要としない最適化手順の非定常性を考慮するために、Adaptive $Q$Network (AdaQN)を提案する。
AdaQNは理論上は健全で、MuJoCo制御問題やAtari 2600のゲームで実証的に検証されている。
論文 参考訳(メタデータ) (2024-05-25T11:57:43Z) - Deep Reinforcement Learning for Inventory Networks: Toward Reliable Policy Optimization [2.9016349714298157]
我々は、在庫管理が深層強化学習(DRL)の信頼性向上にユニークな機会をもたらすと論じている。
1つ目はHendsight Differentiable Policy Optimization (HDPO)であり、これはオフラインのカウンターファクトシミュレーションからパスワイズ勾配を用いてポリシー性能を直接かつ効率的に最適化する。
グラフニューラルネットワーク(GNN)を,サプライチェーン構造を符号化する自然な帰納バイアスとして利用し,最適かつほぼ最適なポリシを2つの理論的設定で表現できること,および6つの多様な在庫問題におけるデータ要求の低減を実証的に示す。
論文 参考訳(メタデータ) (2023-06-20T02:58:25Z) - Decoupled Prioritized Resampling for Offline RL [114.73666323173204]
オフライン強化学習のためのオフライン優先体験再生(OPER)を提案する。
OPERは、高度に反転する遷移を優先するように設計された優先順位関数のクラスを備えており、トレーニング中により頻繁に訪問することができる。
優先順位関数のクラスは行動ポリシーの改善を誘導し、この改善されたポリシーに制約された場合、ポリシー制約付きオフラインRLアルゴリズムによりより良い解が得られる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - CACTO: Continuous Actor-Critic with Trajectory Optimization -- Towards
global optimality [5.0915256711576475]
本稿では,Tlayy(TO)とReinforcement Learning(RL)を1つの軌道で組み合わせた,動的システムの連続制御のための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-12T10:16:35Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。