論文の概要: Dynamical System Optimization
- arxiv url: http://arxiv.org/abs/2506.08340v1
- Date: Tue, 10 Jun 2025 01:50:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.060235
- Title: Dynamical System Optimization
- Title(参考訳): 動的システムの最適化
- Authors: Emo Todorov,
- Abstract要約: 我々は、(パラメトリック)ポリシーが特定されると、制御権限がポリシーに移管され、結果として自律的な力学系が生まれるという、中核的な考え方を中心とした最適化フレームワークを開発する。
我々は、より単純なアルゴリズムを自律システムレベルで導き、それらが政策勾配やヘッセン量と同じ量を計算することを示す。
生成AIモデルのチューニングは可能であるだけでなく、概念的には強化学習よりも現在のフレームワークに近い。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop an optimization framework centered around a core idea: once a (parametric) policy is specified, control authority is transferred to the policy, resulting in an autonomous dynamical system. Thus we should be able to optimize policy parameters without further reference to controls or actions, and without directly using the machinery of approximate Dynamic Programming and Reinforcement Learning. Here we derive simpler algorithms at the autonomous system level, and show that they compute the same quantities as policy gradients and Hessians, natural gradients, proximal methods. Analogs to approximate policy iteration and off-policy learning are also available. Since policy parameters and other system parameters are treated uniformly, the same algorithms apply to behavioral cloning, mechanism design, system identification, learning of state estimators. Tuning of generative AI models is not only possible, but is conceptually closer to the present framework than to Reinforcement Learning.
- Abstract(参考訳): 我々は、(パラメトリック)ポリシーが特定されると、制御権限がポリシーに移管され、結果として自律的な力学系が生まれるという、中核的な考え方を中心とした最適化フレームワークを開発する。
したがって、制御やアクションをこれ以上参照することなく、そして近似動的プログラミングと強化学習の機械を直接使用せずに、ポリシーパラメータを最適化できるべきです。
ここでは、より単純なアルゴリズムを自律システムレベルで導き、それらが政策勾配やヘッセン、自然勾配、近似法と同じ量を計算することを示す。
ポリシーのイテレーションと非政治学習を近似するアナロジーも利用可能である。
ポリシパラメータやその他のシステムパラメータは均一に扱われるため、同じアルゴリズムが行動クローニング、メカニズム設計、システム識別、状態推定器の学習に適用される。
生成AIモデルのチューニングは可能であるだけでなく、概念的には強化学習よりも現在のフレームワークに近い。
関連論文リスト
- Dense Policy: Bidirectional Autoregressive Learning of Actions [51.60428100831717]
本稿では,行動予測における自己回帰的政策の新たなパラダイムを確立するために,Dense Policyと呼ばれる双方向拡張学習手法を提案する。
軽量なエンコーダのみのアーキテクチャを使用して、アクションシーケンスを初期単一フレームからターゲットシーケンスへ粗い方法で反復的に展開する。
実験により、我々の密集した政策は自己回帰学習能力に優れており、既存の全体的生成ポリシーを超越できることが示された。
論文 参考訳(メタデータ) (2025-03-17T14:28:08Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Physical Derivatives: Computing policy gradients by physical
forward-propagation [28.29279610522437]
動的モデルなしでよいポリシーを学ぶことは、違法にコストがかかる。
本研究では,遷移モデルの代わりにパラメータの摂動に対する軌道の感度を学習する中間層を提案する。
これにより、実際のモデルを知ることなく、一連の名目上のポリシーの周りの物理系の局所的な挙動を予測することができる。
論文 参考訳(メタデータ) (2022-01-15T11:27:42Z) - Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究
線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。
PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文 参考訳(メタデータ) (2021-10-18T02:33:20Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Learning Constrained Adaptive Differentiable Predictive Control Policies
With Guarantees [1.1086440815804224]
本稿では,線形システムに対する制約付きニューラルコントロールポリシーの学習方法として,微分可能予測制御(DPC)を提案する。
我々は,モデル予測制御(MPC)損失関数の逆伝搬と,微分可能な閉ループ系力学モデルによるペナルティの制約により,直接的な政策勾配を求めるために,自動微分を用いる。
論文 参考訳(メタデータ) (2020-04-23T14:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。