論文の概要: Latent Linear Quadratic Regulator for Robotic Control Tasks
- arxiv url: http://arxiv.org/abs/2407.11107v1
- Date: Mon, 15 Jul 2024 15:22:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 19:50:52.966663
- Title: Latent Linear Quadratic Regulator for Robotic Control Tasks
- Title(参考訳): ロボット制御作業のための潜在線形二次レギュレータ
- Authors: Yuan Zhang, Shaohui Yang, Toshiyuki Ohtsuka, Colin Jones, Joschka Boedecker,
- Abstract要約: 本稿では、状態空間を潜在空間にマッピングする、$textbfla$tent $textbfl$inear $textbfq$uadratic $textbfr$egulator (LaLQR)を提案する。
実験では、LaLQRの他のベースラインに比べて効率と一般化が優れていることが示された。
- 参考スコア(独自算出の注目度): 10.09131366605447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model predictive control (MPC) has played a more crucial role in various robotic control tasks, but its high computational requirements are concerning, especially for nonlinear dynamical models. This paper presents a $\textbf{la}$tent $\textbf{l}$inear $\textbf{q}$uadratic $\textbf{r}$egulator (LaLQR) that maps the state space into a latent space, on which the dynamical model is linear and the cost function is quadratic, allowing the efficient application of LQR. We jointly learn this alternative system by imitating the original MPC. Experiments show LaLQR's superior efficiency and generalization compared to other baselines.
- Abstract(参考訳): モデル予測制御(MPC)は、様々なロボット制御タスクにおいてより重要な役割を担っているが、その高い計算要求は特に非線形力学モデルにおいて関係している。
本稿では、状態空間を潜在空間にマッピングする$\textbf{la}$tent $\textbf{l}$inear $\textbf{q}$uadratic $\textbf{r}$egulator (LaLQR)を提案する。
我々は、オリジナルのMPCを模倣して、この代替システムを共同で学習する。
実験では、LaLQRの他のベースラインに比べて効率と一般化が優れていることが示された。
関連論文リスト
- DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Combining model-predictive control and predictive reinforcement learning
for stable quadrupedal robot locomotion [0.0]
モデル予測型と予測型強化型学習コントローラの組み合わせによりこれを実現できるかを検討する。
本研究では,両制御手法を組み合わせて,四足歩行ロボットの安定ゲート生成問題に対処する。
論文 参考訳(メタデータ) (2023-07-15T09:22:37Z) - Decentralized Multi-Robot Formation Control Using Reinforcement Learning [2.7716102039510564]
本稿では,小人数のSpheroロボット群に適用した強化学習(RL)アルゴリズムに基づく,分散型リーダフォロワマルチロボット生成制御を提案する。
システム動作を向上させるため,我々は2つの異なるDDQNモデルを訓練した。
提案手法は, 複雑な数学的モデルや非線形制御法則を必要とせずに, マルチロボットシステムが安定な構成を実現し, 維持可能であることを示すシミュレーションおよび実実験で検証されている。
論文 参考訳(メタデータ) (2023-06-26T08:02:55Z) - LQGNet: Hybrid Model-Based and Data-Driven Linear Quadratic Stochastic
Control [24.413595920205907]
二次制御は、不確実性のある環境で、力学系のための最適な制御信号を見つけることを扱う。
LQGNetは、部分的に知られた動的操作のためにデータを活用するコントローラである。
LQGNetは、ミスマッチしたSSモデルを克服することで、古典的な制御よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-23T17:59:51Z) - Certainty Equivalent Quadratic Control for Markov Jump Systems [24.744481548320305]
本稿では,2次コスト関数を持つMJSにおけるモデルベース最適制御のロバスト性について検討する。
我々は、それぞれ $mathcalO(epsilon + eta)$ と $mathcalO((epsilon + eta)2)$ として崩壊する明示的な摂動境界を提供する。
論文 参考訳(メタデータ) (2021-05-26T06:45:47Z) - Sample-Efficient Reinforcement Learning Is Feasible for Linearly
Realizable MDPs with Limited Revisiting [60.98700344526674]
線形関数表現のような低複雑度モデルがサンプル効率のよい強化学習を可能にする上で重要な役割を果たしている。
本稿では,オンライン/探索的な方法でサンプルを描画するが,制御不能な方法で以前の状態をバックトラックし,再訪することができる新しいサンプリングプロトコルについて検討する。
この設定に合わせたアルゴリズムを開発し、特徴次元、地平線、逆の準最適ギャップと実際にスケールするサンプル複雑性を実現するが、状態/作用空間のサイズではない。
論文 参考訳(メタデータ) (2021-05-17T17:22:07Z) - Beyond Fully-Connected Layers with Quaternions: Parameterization of
Hypercomplex Multiplications with $1/n$ Parameters [71.09633069060342]
モデルが事前に定義されているかどうかにかかわらず、データから乗算ルールを学習できるように、ハイパーコンプレックス乗算のパラメータ化を提案する。
我々の手法はハミルトン積を仮定するだけでなく、任意の nD 超複素空間上での操作も学んでいる。
論文 参考訳(メタデータ) (2021-02-17T06:16:58Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。