論文の概要: Dimensionless Policies based on the Buckingham $\pi$ Theorem: Is This a
Good Way to Generalize Numerical Results?
- arxiv url: http://arxiv.org/abs/2307.15852v2
- Date: Wed, 28 Feb 2024 21:52:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 18:50:25.272296
- Title: Dimensionless Policies based on the Buckingham $\pi$ Theorem: Is This a
Good Way to Generalize Numerical Results?
- Title(参考訳): バッキンガムの$\pi$定理に基づく無次元のポリシー:これは数値結果を一般化する良い方法なのだろうか?
- Authors: Alexandre Girard
- Abstract要約: 本稿では,バッキンガムの$pi$定理を,物理系の制御ポリシを汎用的な知識形式にエンコードするツールとして活用する。
本研究では,(1) パラメータの削減,(2) 特定のシステムに対して数値的に生成された制御ポリシを,入力変数と出力変数を適切にスケーリングすることにより,次元的に類似したシステムのサブセットに正確に転送可能であることを示す。
より複雑な高次元問題に対するポリシーを一般化するために、このアプローチがいかに実用的であるかは、まだわからないが、初期の結果は、それがaであることを示している。
- 参考スコア(独自算出の注目度): 66.52698983694613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The answer to the question posed in the title is yes if the context (the list
of variables defining the motion control problem) is dimensionally similar.
This article explores the use of the Buckingham $\pi$ theorem as a tool to
encode the control policies of physical systems into a more generic form of
knowledge that can be reused in various situations. This approach can be
interpreted as enforcing invariance to the scaling of the fundamental units in
an algorithm learning a control policy. First, we show, by restating the
solution to a motion control problem using dimensionless variables, that (1)
the policy mapping involves a reduced number of parameters and (2) control
policies generated numerically for a specific system can be transferred exactly
to a subset of dimensionally similar systems by scaling the input and output
variables appropriately. Those two generic theoretical results are then
demonstrated, with numerically generated optimal controllers, for the classic
motion control problem of swinging up a torque-limited inverted pendulum and
positioning a vehicle in slippery conditions. We also discuss the concept of
regime, a region in the space of context variables, that can help to relax the
similarity condition. Furthermore, we discuss how applying dimensional scaling
of the input and output of a context-specific black-box policy is equivalent to
substituting new system parameters in an analytical equation under some
conditions, using a linear quadratic regulator (LQR) and a computed torque
controller as examples. It remains to be seen how practical this approach can
be to generalize policies for more complex high-dimensional problems, but the
early results show that it is a promising transfer learning tool for numerical
approaches like dynamic programming and reinforcement learning.
- Abstract(参考訳): 題名の質問に対する答えは、文脈(運動制御問題を定義する変数のリスト)が次元的に類似している場合にイエスである。
本稿では、バッキンガムの$\pi$定理を、物理システムの制御ポリシーを様々な状況で再利用できるより汎用的な知識にエンコードするツールとして用いることを検討する。
このアプローチは、制御ポリシーを学習するアルゴリズムにおける基本単位のスケーリングに不変性をもたらすと解釈できる。
まず,無次元変数を用いた運動制御問題の解を復元することにより,(1)パラメータ数の減少を伴うポリシーマッピングを行い,(2)特定のシステムに対して数値的に生成した制御ポリシーを,入力変数と出力変数を適切にスケーリングすることで,次元類似系のサブセットに正確に転送できることを示す。
次に, トルク制限反転振子を揺らし, スリッパ状態において車両の位置決めを行う古典的な運動制御問題に対して, 数値的に生成された最適制御器を用いて, これら2つの汎用的な理論結果を示す。
また、コンテクスト変数の空間内の領域であるレギュレーションの概念についても論じ、類似性の条件を緩和するのに役立つ。
さらに、文脈固有のブラックボックスポリシーの入力と出力の次元的スケーリングの適用は、線形2次レギュレータ(LQR)と計算トルクコントローラを例に、ある条件下で解析方程式に新しいシステムパラメータを置換することと等価である。
このアプローチが、より複雑な高次元問題に対するポリシーの一般化にどの程度実用的になるかはまだわからないが、初期の結果は、動的プログラミングや強化学習のような数値的アプローチにとって有望なトランスファー学習ツールであることが示されている。
関連論文リスト
- Synthesizing Interpretable Control Policies through Large Language Model Guided Search [7.706225175516503]
Pythonのような標準言語のプログラムとしてコントロールポリシを表現しています。
シミュレーションで候補コントローラを評価し,事前学習したLLMを用いてそれらを進化させる。
本手法は,カップタスクにおける振り子の振り上げとボールの解釈可能な制御ポリシの合成への応用を通して述べる。
論文 参考訳(メタデータ) (2024-10-07T18:12:20Z) - Neural Time-Reversed Generalized Riccati Equation [60.92253836775246]
ハミルトン方程式は、コストテートとして知られる補助変数を通して最適性の解釈を提供する。
本稿では,前向きに作業することを目的とした,新しいニューラルベースによる最適制御手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T19:29:37Z) - Conformal Policy Learning for Sensorimotor Control Under Distribution
Shifts [61.929388479847525]
本稿では,センサコントローラの観測値の分布変化を検知・応答する問題に焦点をあてる。
鍵となる考え方は、整合量子を入力として取ることができるスイッチングポリシーの設計である。
本稿では, 基本方針を異なる特性で切り替えるために, 共形量子関数を用いてこのようなポリシーを設計する方法を示す。
論文 参考訳(メタデータ) (2023-11-02T17:59:30Z) - A Physics-informed Deep Learning Approach for Minimum Effort Stochastic
Control of Colloidal Self-Assembly [9.791617215182598]
制御目的は、所定の初期確率尺度から最小制御労力で所定の終端確率尺度へ状態PDFを操る観点から定式化される。
我々は、関連する最適制御問題に対する最適性の条件を導出する。
提案手法の性能は, ベンチマークコロイド自己集合問題に対する数値シミュレーションにより検証した。
論文 参考訳(メタデータ) (2022-08-19T07:01:57Z) - A Recursive Partitioning Approach for Dynamic Discrete Choice Modeling
in High Dimensional Settings [0.0]
動的離散選択モデルの推定は、しばしば計算集約的で高次元の設定では不可能である。
状態変数の高次元集合を含む動的離散選択モデルの半パラメトリック定式化を提案する。
論文 参考訳(メタデータ) (2022-08-02T14:13:25Z) - Deep Learning Approximation of Diffeomorphisms via Linear-Control
Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。
対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文 参考訳(メタデータ) (2021-10-24T08:57:46Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - Policy Optimization for Linear-Quadratic Zero-Sum Mean-Field Type Games [1.1852406625172216]
線形力学と二次効用を持つゼロサム平均場型ゲーム (ZSMFTG) について検討した。
政策勾配に依存する2つの政策最適化手法を提案する。
論文 参考訳(メタデータ) (2020-09-02T13:49:08Z) - Sparse Identification of Nonlinear Dynamical Systems via Reweighted
$\ell_1$-regularized Least Squares [62.997667081978825]
本研究は, 非線形系の制御方程式をノイズ状態測定から復元するための繰り返しスパース規則化回帰法を提案する。
本研究の目的は、状態測定ノイズの存在下での手法の精度とロバスト性を改善することである。
論文 参考訳(メタデータ) (2020-05-27T08:30:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。