論文の概要: Efficient Reinforcement Learning using Linear Koopman Dynamics for Nonlinear Robotic Systems
- arxiv url: http://arxiv.org/abs/2604.19980v1
- Date: Tue, 21 Apr 2026 20:40:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.84074
- Title: Efficient Reinforcement Learning using Linear Koopman Dynamics for Nonlinear Robotic Systems
- Title(参考訳): 非線形ロボットシステムのための線形クープマンダイナミクスを用いた効率的な強化学習
- Authors: Wenjian Hao, Yuxuan Fang, Zehui Lu, Shaoshuai Mou,
- Abstract要約: 本稿では,非線形ロボットシステムの最適閉ループ制御のためのモデルに基づく強化学習フレームワークを提案する。
提案手法は、クープマン作用素理論を通じて線形昇降力学を学習し、結果のモデルをポリシー最適化のためのアクタ批判アーキテクチャに統合する。
このフレームワークは、いくつかのシミュレーションされた非線形制御ベンチマークと、2つの実世界のハードウェアプラットフォームで評価される。
- 参考スコア(独自算出の注目度): 4.946483489399818
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents a model-based reinforcement learning (RL) framework for optimal closed-loop control of nonlinear robotic systems. The proposed approach learns linear lifted dynamics through Koopman operator theory and integrates the resulting model into an actor-critic architecture for policy optimization, where the policy represents a parameterized closed-loop controller. To reduce computational cost and mitigate model rollout errors, policy gradients are estimated using one-step predictions of the learned dynamics rather than multi-step propagation. This leads to an online mini-batch policy gradient framework that enables policy improvement from streamed interaction data. The proposed framework is evaluated on several simulated nonlinear control benchmarks and two real-world hardware platforms, including a Kinova Gen3 robotic arm and a Unitree Go1 quadruped. Experimental results demonstrate improved sample efficiency over model-free RL baselines, superior control performance relative to model-based RL baselines, and control performance comparable to classical model-based methods that rely on exact system dynamics.
- Abstract(参考訳): 本稿では,非線形ロボットシステムの最適閉ループ制御のためのモデルベース強化学習(RL)フレームワークを提案する。
提案手法は,Kopman演算子理論を用いて線形昇降力学を学習し,得られたモデルをパラメータ化閉ループ制御系を表すポリシ最適化のためのアクタ批判アーキテクチャに統合する。
計算コストを削減し,モデルロールアウト誤差を軽減するため,多段階伝搬ではなく,学習力学の一段階予測を用いてポリシー勾配を推定する。
これにより、ストリームされたインタラクションデータからポリシーの改善を可能にする、オンラインのミニバッチポリシー勾配フレームワークが実現される。
提案したフレームワークは、いくつかのシミュレーションされた非線形制御ベンチマークと、Kinova Gen3ロボットアームとUnitree Go1四足歩行を含む2つの実世界のハードウェアプラットフォームで評価されている。
実験結果から,モデルフリーなRLベースラインに対するサンプル効率の向上,モデルベースRLベースラインに対する制御性能の向上,システムダイナミクスに依存する古典的モデルベース手法に匹敵する制御性能が示された。
関連論文リスト
- Sample-Efficient Reinforcement Learning of Koopman eNMPC [42.72938925647165]
強化学習は、データ駆動(経済)非線形モデル予測コントローラ((e)NMPC)を、特定の制御タスクにおける最適な性能に調整するために使用することができる。
モデルに基づくRLアルゴリズムと、Koopman (e)NMPCを自動微分可能なポリシーに変換する方法を組み合わせる。
論文 参考訳(メタデータ) (2025-03-24T15:35:16Z) - Neural Internal Model Control: Learning a Robust Control Policy via Predictive Error Feedback [16.46487826869775]
本稿では,モデルベース制御とRLベース制御を統合し,ロバスト性を高めるニューラル内部モデル制御を提案する。
我々のフレームワークは、剛体力学にニュートン・オイラー方程式を適用することで予測モデルを合理化し、複雑な高次元非線形性を捉える必要がなくなる。
本研究では,四足歩行ロボットと四足歩行ロボットにおけるフレームワークの有効性を実証し,最先端の手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2024-11-20T07:07:42Z) - End-to-End Reinforcement Learning of Koopman Models for Economic Nonlinear Model Predictive Control [45.84205238554709]
本研究では, (e)NMPCの一部として最適性能を示すために, Koopman シュロゲートモデルの強化学習法を提案する。
エンドツーエンドトレーニングモデルは,(e)NMPCにおけるシステム識別を用いてトレーニングしたモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-03T10:21:53Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。