論文の概要: An Optimal Policy for Learning Controllable Dynamics by Exploration
- arxiv url: http://arxiv.org/abs/2512.20053v1
- Date: Tue, 23 Dec 2025 05:03:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.751955
- Title: An Optimal Policy for Learning Controllable Dynamics by Exploration
- Title(参考訳): 探索による制御可能なダイナミクス学習のための最適ポリシー
- Authors: Peter N. Loxley,
- Abstract要約: 限られた時間的地平線を探索することにより、未知の環境下で制御可能な力学を学習するための最適ポリシーの一般的な形を与える。
このポリシーは簡単に実装でき、効率的に計算でき、エージェントが探索することで学習することができる」。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllable Markov chains describe the dynamics of sequential decision making tasks and are the central component in optimal control and reinforcement learning. In this work, we give the general form of an optimal policy for learning controllable dynamics in an unknown environment by exploring over a limited time horizon. This policy is simple to implement and efficient to compute, and allows an agent to ``learn by exploring" as it maximizes its information gain in a greedy fashion by selecting controls from a constraint set that changes over time during exploration. We give a simple parameterization for the set of controls, and present an algorithm for finding an optimal policy. The reason for this policy is due to the existence of certain types of states that restrict control of the dynamics; such as transient states, absorbing states, and non-backtracking states. We show why the occurrence of these states makes a non-stationary policy essential for achieving optimal exploration. Six interesting examples of controllable dynamics are treated in detail. Policy optimality is demonstrated using counting arguments, comparing with suboptimal policies, and by making use of a sequential improvement property from dynamic programming.
- Abstract(参考訳): 制御可能なマルコフ連鎖は、シーケンシャルな意思決定タスクのダイナミクスを記述し、最適制御と強化学習の中心的な構成要素である。
本研究では、限られた時間的地平線を探索することにより、未知の環境下で制御可能な力学を学習するための最適ポリシーの一般的な形を与える。
このポリシーは実装が簡単で、効率的に計算でき、エージェントが探索中に時間とともに変化する制約セットから制御を選択することで情報ゲインを最大限にするため、"探索によって学習する"ことができる。
制御の集合に対して簡単なパラメータ化を行い、最適なポリシーを見つけるアルゴリズムを提案する。
この政策の理由は、過渡状態、吸収状態、非追跡状態など、力学の制御を制限するある種の状態が存在するためである。
これらの状態の発生が、最適な探索を達成するために、非定常的な政策を必須にする理由を示す。
制御可能な力学の6つの興味深い例が詳細に扱われる。
ポリシーの最適性は、カウントする引数を用いて示され、最適化されたポリシーと比較され、動的プログラミングから逐次改善特性を利用することによって示される。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Extremum-Seeking Action Selection for Accelerating Policy Optimization [18.162794442835413]
連続空間の制御のための強化学習は、典型的にはガウス分布のような高エントロピーポリシーを用いて局所的な探索と性能の最適化を推定する。
本稿では,ESC(Extremum-Seeking Control)に基づく適応制御を付加することで,モデルフリーなRL設定におけるアクション選択を改善することを提案する。
本手法は, 各種制御学習環境において, 学習効率を向上させるために, 標準方針最適化において容易に追加することができる。
論文 参考訳(メタデータ) (2024-04-02T02:39:17Z) - Introduction to Online Control [31.67032731719622]
オンラインの非確率制御では、コスト関数と仮定された力学モデルからの摂動の両方が敵によって選択される。
目標は、ベンチマーククラスの政策から見て、最高の政策に対して低い後悔を得ることだ。
論文 参考訳(メタデータ) (2022-11-17T16:12:45Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Direct Random Search for Fine Tuning of Deep Reinforcement Learning
Policies [5.543220407902113]
直接ランダム検索は、決定論的ロールアウトを用いて直接最適化することにより、DRLポリシーを微調整するのに非常に効果的であることを示す。
その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2021-09-12T20:12:46Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。