論文の概要: Continuous-Discrete Reinforcement Learning for Hybrid Control in
Robotics
- arxiv url: http://arxiv.org/abs/2001.00449v1
- Date: Thu, 2 Jan 2020 14:19:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 04:03:38.061713
- Title: Continuous-Discrete Reinforcement Learning for Hybrid Control in
Robotics
- Title(参考訳): ロボットのハイブリッド制御のための連続離散強化学習
- Authors: Michael Neunert, Abbas Abdolmaleki, Markus Wulfmeier, Thomas Lampe,
Jost Tobias Springenberg, Roland Hafner, Francesco Romano, Jonas Buchli,
Nicolas Heess, Martin Riedmiller
- Abstract要約: 本稿では、ハイブリッド強化学習を用いて、ハイブリッド問題を「ネイティブ」形式で扱うことを提案する。
実験では,提案手法がこれらのハイブリッド強化学習問題を効率的に解くことを最初に実証した。
そして、シミュレーションとロボットハードウェアの両方において、専門家が設計した不完全なものを除去する利点が示されます。
- 参考スコア(独自算出の注目度): 21.823173895315605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world control problems involve both discrete decision variables -
such as the choice of control modes, gear switching or digital outputs - as
well as continuous decision variables - such as velocity setpoints, control
gains or analogue outputs. However, when defining the corresponding optimal
control or reinforcement learning problem, it is commonly approximated with
fully continuous or fully discrete action spaces. These simplifications aim at
tailoring the problem to a particular algorithm or solver which may only
support one type of action space. Alternatively, expert heuristics are used to
remove discrete actions from an otherwise continuous space. In contrast, we
propose to treat hybrid problems in their 'native' form by solving them with
hybrid reinforcement learning, which optimizes for discrete and continuous
actions simultaneously. In our experiments, we first demonstrate that the
proposed approach efficiently solves such natively hybrid reinforcement
learning problems. We then show, both in simulation and on robotic hardware,
the benefits of removing possibly imperfect expert-designed heuristics. Lastly,
hybrid reinforcement learning encourages us to rethink problem definitions. We
propose reformulating control problems, e.g. by adding meta actions, to improve
exploration or reduce mechanical wear and tear.
- Abstract(参考訳): 多くの実世界の制御問題は、制御モードの選択、ギアスイッチング、デジタル出力などの決定変数と、速度設定点、制御ゲイン、アナログ出力のような連続的な決定変数の両方を含む。
しかし、対応する最適制御あるいは強化学習問題を定義する際には、完全に連続的あるいは完全に離散的な作用空間で概ね近似される。
これらの単純化は、特定の種類のアクション空間しかサポートできない特定のアルゴリズムや解法に問題を調整することを目的としている。
あるいは、専門家ヒューリスティックスは、他の連続空間から離散的な作用を取り除くために用いられる。
そこで本研究では,分散動作と連続動作を同時に最適化するハイブリッド強化学習を用いて,ハイブリッド問題を「ネイティブ」形式で扱うことを提案する。
実験では,提案手法がネイティブなハイブリッド強化学習問題を効率的に解くことを実証した。
次に、シミュレーションとロボットハードウェアの両方において、おそらく不完全なエキスパート設計のヒューリスティックを取り除く利点を示す。
最後に、ハイブリッド強化学習は問題定義の再考を促す。
本研究では, メタアクションを付加することにより, 機械的な摩耗や破断の軽減や探索を改善するための, 制御問題の再構成を提案する。
関連論文リスト
- Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Mixed-Integer Optimal Control via Reinforcement Learning: A Case Study on Hybrid Electric Vehicle Energy Management [2.0762193863564926]
本稿では,2つの遅延深い決定論的アクターQ(TD3AQ)を最適制御問題に適用するハイブリッドアクション強化学習(HARL)アルゴリズムを提案する。
TD3AQはアクター批判とQ-ラーニングの両方の利点を組み合わせ、離散的かつ連続的なアクション空間を同時に扱うことができる。
提案手法はプラグインハイブリッド電気自動車(PHEV)のエネルギー管理問題に対して評価される。
論文 参考訳(メタデータ) (2023-05-02T14:42:21Z) - Scalable Task-Driven Robotic Swarm Control via Collision Avoidance and
Learning Mean-Field Control [23.494528616672024]
我々は、最先端平均場制御技術を用いて、多くのエージェントSwarm制御を分散の古典的な単一エージェント制御に変換する。
そこで我々は,衝突回避と平均場制御の学習を,知的ロボット群動作を牽引的に設計するための統一的な枠組みに統合する。
論文 参考訳(メタデータ) (2022-09-15T16:15:04Z) - Gradient Backpropagation Through Combinatorial Algorithms: Identity with
Projection Works [20.324159725851235]
ゼロあるいは未定義の解法に対する意味のある置き換えは、効果的な勾配に基づく学習に不可欠である。
本稿では, 離散解空間の幾何学を応用して, 後方パス上の負の同一性として処理する原理的手法を提案する。
論文 参考訳(メタデータ) (2022-05-30T16:17:09Z) - Learning Solution Manifolds for Control Problems via Energy Minimization [32.59818752168615]
様々な制御タスクは一般にエネルギー最小化問題として定式化されている。
このような問題に対する数値解は十分に確立されているが、しばしばリアルタイムアプリケーションで直接使用されるには遅すぎる。
本稿では,効率的かつ数値的に堅牢な行動クローニング(BC)の代替手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T14:28:57Z) - Trajectory Tracking of Underactuated Sea Vessels With Uncertain
Dynamics: An Integral Reinforcement Learning Approach [2.064612766965483]
積分強化学習に基づくオンライン機械学習メカニズムを提案し,非線形追跡問題のクラスに対する解を求める。
このソリューションは、適応的批評家と勾配降下アプローチを用いて実現されるオンライン価値反復プロセスを用いて実装される。
論文 参考訳(メタデータ) (2021-04-01T01:41:49Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Improving Input-Output Linearizing Controllers for Bipedal Robots via
Reinforcement Learning [85.13138591433635]
入力出力線形化コントローラの主な欠点は、正確な力学モデルが必要であり、入力制約を考慮できないことである。
本稿では,強化学習技術を用いた二足歩行ロボット制御の具体例について,両課題に対処する。
論文 参考訳(メタデータ) (2020-04-15T18:15:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。