論文の概要: Learning global control of underactuated systems with Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.06721v1
- Date: Wed, 09 Apr 2025 09:20:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:06:55.990918
- Title: Learning global control of underactuated systems with Model-Based Reinforcement Learning
- Title(参考訳): モデルに基づく強化学習による不活性化システムのグローバル制御の学習
- Authors: Niccolò Turcato, Marco Calì, Alberto Dalla Libera, Giulio Giacomuzzo, Ruggero Carli, Diego Romeres,
- Abstract要約: 本稿では,ICRA 2025で開催された「AI Olympics with RealAIGym」第3回大会の解決策について述べる。
我々は,モンテカルロ確率的学習制御(MC-PILCO)を,低次元ロボット作業における例外的なデータ効率に用いている。
MC-PILCOはこのコンペの最初の2回で優勝し、シミュレーションと実環境の両方で堅牢性を示している。
- 参考スコア(独自算出の注目度): 7.4278142555507065
- License:
- Abstract: This short paper describes our proposed solution for the third edition of the "AI Olympics with RealAIGym" competition, held at ICRA 2025. We employed Monte-Carlo Probabilistic Inference for Learning Control (MC-PILCO), an MBRL algorithm recognized for its exceptional data efficiency across various low-dimensional robotic tasks, including cart-pole, ball \& plate, and Furuta pendulum systems. MC-PILCO optimizes a system dynamics model using interaction data, enabling policy refinement through simulation rather than direct system data optimization. This approach has proven highly effective in physical systems, offering greater data efficiency than Model-Free (MF) alternatives. Notably, MC-PILCO has previously won the first two editions of this competition, demonstrating its robustness in both simulated and real-world environments. Besides briefly reviewing the algorithm, we discuss the most critical aspects of the MC-PILCO implementation in the tasks at hand: learning a global policy for the pendubot and acrobot systems.
- Abstract(参考訳): 本稿では,ICRA 2025で開催される「AI Olympics with RealAIGym」大会の第3回大会の解決策について述べる。
我々は,モンテカルロ確率的学習制御(MC-PILCO)を用いて,カートポール,ボール・アンド・プレート,フルタ振り子システムなど,様々な低次元ロボットタスクにおいて,その例外的なデータ効率を認識できるMBRLアルゴリズムを開発した。
MC-PILCOは、相互作用データを用いたシステムダイナミクスモデルを最適化し、直接システムデータ最適化ではなく、シミュレーションによるポリシー改善を可能にする。
このアプローチは物理システムにおいて非常に効果的であることが証明されており、MF(Model-Free)の代替よりもデータ効率が高い。
特に、MC-PILCOは以前にもこのコンペで2回優勝しており、シミュレーションと実環境の両方で堅牢性を示している。
本研究は,アルゴリズムの短時間のレビューに加えて,その課題におけるMC-PILCO実装の最も重要な側面として,ペンデュボットとアクロボットシステムのグローバルポリシの学習について論じる。
関連論文リスト
- Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
私たちは世界モデルを学ぶための新しいフレームワークを紹介します。
スケーラブルで堅牢なフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - Automatic AI Model Selection for Wireless Systems: Online Learning via Digital Twinning [50.332027356848094]
AIベースのアプリケーションは、スケジューリングや電力制御などの機能を実行するために、インテリジェントコントローラにデプロイされる。
コンテキストとAIモデルのパラメータのマッピングは、ゼロショット方式で理想的に行われる。
本稿では,AMSマッピングのオンライン最適化のための一般的な手法を紹介する。
論文 参考訳(メタデータ) (2024-06-22T11:17:50Z) - Dropout MPC: An Ensemble Neural MPC Approach for Systems with Learned Dynamics [0.0]
そこで本研究では,モンテカルロのドロップアウト手法を学習システムモデルに応用した,サンプリングベースアンサンブルニューラルMPCアルゴリズムを提案する。
この手法は一般に複雑な力学を持つ不確実なシステムを対象としており、第一原理から派生したモデルは推論が難しい。
論文 参考訳(メタデータ) (2024-06-04T17:15:25Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - KNODE-MPC: A Knowledge-based Data-driven Predictive Control Framework
for Aerial Robots [5.897728689802829]
我々は、知識に基づくニューラル常微分方程式(KNODE)というディープラーニングツールを用いて、第一原理から得られたモデルを拡張する。
得られたハイブリッドモデルは、名目上の第一原理モデルと、シミュレーションまたは実世界の実験データから学習したニューラルネットワークの両方を含む。
閉ループ性能を改善するため、ハイブリッドモデルはKNODE-MPCとして知られる新しいMPCフレームワークに統合される。
論文 参考訳(メタデータ) (2021-09-10T12:09:18Z) - Model-Based Policy Search Using Monte Carlo Gradient Estimation with
Real Systems Application [12.854118767247453]
EmphMonte Carlo Probabilistic Inference for Learning Control (MC-PILCO) というモデルベース強化学習(MBRL)アルゴリズムを提案する。
このアルゴリズムは、システム力学をモデル化するガウス過程(GP)と、政策勾配を推定するモンテカルロのアプローチに依存している。
シミュレーションされたカートポール環境における数値的な比較により、MC-PILCOはより優れたデータ効率と制御性能を示すことが示された。
論文 参考訳(メタデータ) (2021-01-28T17:01:15Z) - Reconfigurable Intelligent Surface Assisted Mobile Edge Computing with
Heterogeneous Learning Tasks [53.1636151439562]
モバイルエッジコンピューティング(MEC)は、AIアプリケーションに自然なプラットフォームを提供します。
再構成可能なインテリジェントサーフェス(RIS)の助けを借りて、MECで機械学習タスクを実行するインフラストラクチャを提示します。
具体的には,モバイルユーザの送信パワー,基地局のビームフォーミングベクトル,risの位相シフト行列を共同で最適化することにより,参加ユーザの学習誤差を最小化する。
論文 参考訳(メタデータ) (2020-12-25T07:08:50Z) - Reinforcement Learning Control of Robotic Knee with Human in the Loop by
Flexible Policy Iteration [17.365135977882215]
本研究は,ポリシーアルゴリズムに革新的な特徴を導入することで,重要な空白を埋める。
本稿では,近似値関数の収束,解の最適性,システムの安定性などのシステムレベルの性能を示す。
論文 参考訳(メタデータ) (2020-06-16T09:09:48Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。