論文の概要: Learning Solution Manifolds for Control Problems via Energy Minimization
- arxiv url: http://arxiv.org/abs/2203.03432v1
- Date: Mon, 7 Mar 2022 14:28:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 18:39:51.407095
- Title: Learning Solution Manifolds for Control Problems via Energy Minimization
- Title(参考訳): エネルギー最小化による制御問題の学習解多様体
- Authors: Miguel Zamora, Roi Poranne, Stelian Coros
- Abstract要約: 様々な制御タスクは一般にエネルギー最小化問題として定式化されている。
このような問題に対する数値解は十分に確立されているが、しばしばリアルタイムアプリケーションで直接使用されるには遅すぎる。
本稿では,効率的かつ数値的に堅牢な行動クローニング(BC)の代替手法を提案する。
- 参考スコア(独自算出の注目度): 32.59818752168615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A variety of control tasks such as inverse kinematics (IK), trajectory
optimization (TO), and model predictive control (MPC) are commonly formulated
as energy minimization problems. Numerical solutions to such problems are
well-established. However, these are often too slow to be used directly in
real-time applications. The alternative is to learn solution manifolds for
control problems in an offline stage. Although this distillation process can be
trivially formulated as a behavioral cloning (BC) problem in an imitation
learning setting, our experiments highlight a number of significant
shortcomings arising due to incompatible local minima, interpolation artifacts,
and insufficient coverage of the state space. In this paper, we propose an
alternative to BC that is efficient and numerically robust. We formulate the
learning of solution manifolds as a minimization of the energy terms of a
control objective integrated over the space of problems of interest. We
minimize this energy integral with a novel method that combines Monte
Carlo-inspired adaptive sampling strategies with the derivatives used to solve
individual instances of the control task. We evaluate the performance of our
formulation on a series of robotic control problems of increasing complexity,
and we highlight its benefits through comparisons against traditional methods
such as behavioral cloning and Dataset aggregation (Dagger).
- Abstract(参考訳): 逆運動学(IK)、軌道最適化(TO)、モデル予測制御(MPC)といった様々な制御タスクは、エネルギー最小化問題として一般的に定式化されている。
このような問題の数値解は確立されている。
しかし、これらはリアルタイムアプリケーションで直接使用されるには遅すぎることが多い。
もう一つの方法は、オフライン段階における制御問題に対する解多様体の学習である。
この蒸留プロセスは, 模擬学習環境において, 行動クローニング(BC)問題として自明に定式化することができるが, 不整合性ローカル・ミニマ, 補間アーティファクト, 状態空間のカバー不足など, 数多くの重大な欠点を浮き彫りにしている。
本稿では,高効率で数値的に頑健なbcの代替案を提案する。
我々は、関心のある問題の空間上で統合された制御対象のエネルギー項の最小化として解多様体の学習を定式化する。
このエネルギー積分をモンテカルロに触発された適応サンプリング戦略と、制御タスクの個々のインスタンスを解く導関数を組み合わせた新しい手法で最小化する。
我々は,複雑性を増大させる一連のロボット制御問題に対する定式化の性能評価を行い,行動クローンやデータセットアグリゲーション(Dagger)といった従来の手法との比較を通じて,その利点を強調した。
関連論文リスト
- Integrating Reinforcement Learning and Model Predictive Control with Applications to Microgrids [14.389086937116582]
本研究では,強化学習とモデル予測制御(MPC)を統合し,混合力学系における最適制御問題の解法を提案する。
提案手法は, MPC手法のオンライン計算時間を著しく短縮し, 最適性ギャップが小さく, 実現可能性が高いポリシーを生成する。
論文 参考訳(メタデータ) (2024-09-17T15:17:16Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - FlowPG: Action-constrained Policy Gradient with Normalizing Flows [14.98383953401637]
ACRL(Action-Constrained reinforcement learning)は、安全クリティカルなリソース関連意思決定問題を解決するための一般的な手法である。
ACRLの最大の課題は、各ステップにおける制約を満たす有効なアクションを取るエージェントを確保することである。
論文 参考訳(メタデータ) (2024-02-07T11:11:46Z) - Reimagining Demand-Side Management with Mean Field Learning [0.0]
本稿では,DSMの新しい手法,特に所望の消費信号に従うために大量の電気機器を制御する問題を提案する。
我々は,凸関数とリプシッツ関数の理論的保証を提供する新しいアルゴリズムMD-MFCを開発した。
論文 参考訳(メタデータ) (2023-02-16T10:15:08Z) - Learning Sampling Distributions for Model Predictive Control [36.82905770866734]
モデル予測制御(MPC)に対するサンプリングに基づくアプローチは、MPCに対する現代のアプローチの基盤となっている。
我々は、学習された分布を最大限に活用できるように、潜在空間における全ての操作を実行することを提案する。
具体的には、学習問題を双方向の最適化として捉え、バックプロパゲーションスルータイムでコントローラをトレーニングする方法を示す。
論文 参考訳(メタデータ) (2022-12-05T20:35:36Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Low-rank Optimal Transport: Approximation, Statistics and Debiasing [51.50788603386766]
フロゼットボン2021ローランで提唱された低ランク最適輸送(LOT)アプローチ
LOTは興味のある性質と比較した場合、エントロピー正則化の正当な候補と見なされる。
本稿では,これらの領域のそれぞれを対象とし,計算OTにおける低ランクアプローチの影響を補強する。
論文 参考訳(メタデータ) (2022-05-24T20:51:37Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Deep Learning Approximation of Diffeomorphisms via Linear-Control
Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。
対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文 参考訳(メタデータ) (2021-10-24T08:57:46Z) - Solving weakly supervised regression problem using low-rank manifold
regularization [77.34726150561087]
我々は弱い教師付き回帰問題を解く。
weakly"の下では、いくつかのトレーニングポイントではラベルが知られ、未知のものもあれば、無作為なノイズの存在やリソースの欠如などの理由によって不確かであることが分かっています。
数値的な節ではモンテカルロモデルを用いて提案手法を人工と実のデータセットに適用した。
論文 参考訳(メタデータ) (2021-04-13T23:21:01Z) - Memory Clustering using Persistent Homology for Multimodality- and
Discontinuity-Sensitive Learning of Optimal Control Warm-starts [24.576214898129823]
シューティング法は非線形最適制御問題の解法として効率的である。
最近の研究は、問題空間のオフライン探索中に生成されたサンプルに基づいてトレーニングされた学習モデルからの最初の推測を提供することに重点を置いている。
本研究では、代数的トポロジーからツールを適用し、解空間の基盤構造に関する情報を抽出する。
論文 参考訳(メタデータ) (2020-10-02T14:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。