論文の概要: Solving the swing-up and balance task for the Acrobot and Pendubot with
SAC
- arxiv url: http://arxiv.org/abs/2312.11311v1
- Date: Mon, 18 Dec 2023 16:04:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 19:31:14.392410
- Title: Solving the swing-up and balance task for the Acrobot and Pendubot with
SAC
- Title(参考訳): sacによるacrobotとpendubotのswing-up and balanceタスクの解決
- Authors: Chi Zhang, Akhil Sathuluri, Markus Zimmermann
- Abstract要約: 我々は,IJCAI 2023のAIオリンピック大会に参加するために,ペンデュボットとアクロボットのスイング・アンド・バランスタスクのソリューションを提案する。
本手法は,SAC(Soft Actor Crtic)強化学習(RL)アルゴリズムを用いて,スイングアップのポリシーを学習する。
我々のコントローラは、ペンデュボットとアクロボットの両方のパフォーマンスと堅牢性において、競合するスコアを達成します。
- 参考スコア(独自算出の注目度): 6.192534260322526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a solution of the swing-up and balance task for the pendubot and
acrobot for the participation in the AI Olympics competition at IJCAI 2023. Our
solution is based on the Soft Actor Crtic (SAC) reinforcement learning (RL)
algorithm for training a policy for the swing-up and entering the region of
attraction of a linear quadratic regulator(LQR) controller for stabilizing the
double pendulum at the top position. Our controller achieves competitive scores
in performance and robustness for both, pendubot and acrobot, problem
scenarios.
- Abstract(参考訳): 我々は,IJCAI 2023のAIオリンピック大会に参加するために,ペンデュボットとアクロボットのスイング・アンド・バランスタスクのソリューションを提案する。
本手法は,2重振り子を最上位位置で安定化するための線形2次レギュレータ(LQR)制御器の振上げとアトラクション領域への進入を訓練するための,ソフトアクタCrtic(SAC)強化学習(RL)アルゴリズムに基づいている。
我々のコントローラは、ペンデュボットとアクロボットの両方のパフォーマンスと堅牢性において、競合するスコアを達成します。
関連論文リスト
- Average-Reward Maximum Entropy Reinforcement Learning for Underactuated Double Pendulum Tasks [0.24578723416255752]
本報告では,IROS 2024におけるAIオリンピック競技のために開発されたアクロボットとペンデュボットの起動と安定化の課題に対する解決策を提示する。
提案手法では, 平均回帰RLと最大エントロピーRLを組み合わせたモデルフリー強化学習(RL)アルゴリズム, Average-Reward Entropy Advantage Policy Optimization (AR-EAPO) を用いる。
論文 参考訳(メタデータ) (2024-09-13T15:56:26Z) - Planning the path with Reinforcement Learning: Optimal Robot Motion Planning in RoboCup Small Size League Environments [1.6961863980885539]
本研究は,RoboCup Small Size League(SSL)におけるロボット運動計画課題に取り組むための強化学習の可能性について検討する。
制御手法を用いて,障害物のない単一障害物経路計画環境におけるRLの有効性を評価する。
本手法は, 障害物のない環境において, ベースラインアルゴリズムと比較して60%の時間ゲインを達成した。
論文 参考訳(メタデータ) (2024-04-23T18:01:30Z) - Who Plays First? Optimizing the Order of Play in Stackelberg Games with Many Robots [4.146913555716228]
Branch and Play (B&P) は、社会的に最適な遊びの順序とスタックルバーグ均衡に収束する効率的かつ正確なアルゴリズムである。
本稿では,B&Pによる航空交通管制,群れ形成,輸送車両の配車における実用性を実証する。
論文 参考訳(メタデータ) (2024-02-14T15:34:38Z) - Active Predicting Coding: Brain-Inspired Reinforcement Learning for
Sparse Reward Robotic Control Problems [79.07468367923619]
ニューラルジェネレーティブ・コーディング(NGC)の神経認知計算フレームワークによるロボット制御へのバックプロパゲーションフリーアプローチを提案する。
我々は、スパース報酬から動的オンライン学習を容易にする強力な予測符号化/処理回路から完全に構築されたエージェントを設計する。
提案するActPCエージェントは,スパース(外部)報酬信号に対して良好に動作し,複数の強力なバックプロップベースのRLアプローチと競合し,性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-09-19T16:49:32Z) - DC-MRTA: Decentralized Multi-Robot Task Allocation and Navigation in
Complex Environments [55.204450019073036]
本稿では,倉庫環境における移動ロボットのためのタスク割り当てと分散ナビゲーションアルゴリズムを提案する。
本稿では,共同分散タスク割り当てとナビゲーションの問題について考察し,それを解決するための2段階のアプローチを提案する。
ロボットの衝突のない軌道の計算では,タスク完了時間において最大14%の改善と最大40%の改善が観察される。
論文 参考訳(メタデータ) (2022-09-07T00:35:27Z) - Hierarchical Reinforcement Learning for Precise Soccer Shooting Skills
using a Quadrupedal Robot [76.04391023228081]
本研究では,四足歩行ロボットが実世界において,強化学習を用いて精度の高い射撃技術を実現できるという課題に対処する。
本研究では, 深層強化学習を活用して頑健な動作制御政策を訓練する階層的枠組みを提案する。
提案するフレームワークをA1四足歩行ロボットに展開し、実世界のランダムなターゲットに向けて正確にボールを発射できるようにする。
論文 参考訳(メタデータ) (2022-08-01T22:34:51Z) - It Takes Four to Tango: Multiagent Selfplay for Automatic Curriculum
Generation [107.10235120286352]
汎用強化学習エージェントを効率的に訓練するには、ゴールカリキュラムの自動生成が必要である。
自動ゴール生成フレームワークCuSPを提案する。
本手法は,様々な制御タスクに対して,効率的な目標のカリキュラムを生成するのに有効であることを示す。
論文 参考訳(メタデータ) (2022-02-22T01:23:23Z) - A Deep Reinforcement Learning Approach towards Pendulum Swing-up Problem
based on TF-Agents [6.000551438232908]
深層Q学習エージェントでCartPoleをトレーニングするというアイデアに適応して、ポールが落ちないようにする有望な結果を見つけることができます。
環境とエージェントの相互作用から学習する強化学習能力は、最適な制御戦略を提供する。
論文 参考訳(メタデータ) (2021-06-17T14:35:48Z) - Multi-Agent Training beyond Zero-Sum with Correlated Equilibrium Meta-Solvers [21.462231105582347]
本稿では,n-player, general-sum extensive form game におけるエージェントのトレーニングアルゴリズムを提案する。
また,メタソリューションとして相関平衡(CE)を提案するとともに,新しい解法概念であるGini Correlated Equilibrium(MGCE)を提案する。
JPSROのためのCEメタソルバを用いていくつかの実験を行い、n-player, general-sumゲーム上で収束を示す。
論文 参考訳(メタデータ) (2021-06-17T12:34:18Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z) - Cooperative Control of Mobile Robots with Stackelberg Learning [63.99843063704676]
マルチロボットの協力は、エージェントが共通の目標に整合性を持たなければならない。
協調制御におけるスタックルバーグ学習という手法を提案する。
論文 参考訳(メタデータ) (2020-08-03T07:21:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。