論文の概要: Efficient Reinforcement Learning for Jumping Monopods
- arxiv url: http://arxiv.org/abs/2309.07038v2
- Date: Fri, 22 Sep 2023 16:12:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 17:42:18.734795
- Title: Efficient Reinforcement Learning for Jumping Monopods
- Title(参考訳): 跳躍モノポッドの効率的な強化学習
- Authors: Riccardo Bussola, Michele Focchi, Andrea Del Prete, Daniele
Fontanelli, Luigi Palopoli
- Abstract要約: 単足動物を目標にジャンプさせるという複雑な制御問題を考察する。
これは、非常に困難で計算コストのかかる、はるかに大きなクラスの問題のテンプレートである。
本稿では,物理知識を注入することにより,RLフレームワーク内での学習プロセスをガイドする。
- 参考スコア(独自算出の注目度): 7.288658659161598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we consider the complex control problem of making a monopod
reach a target with a jump. The monopod can jump in any direction and the
terrain underneath its foot can be uneven. This is a template of a much larger
class of problems, which are extremely challenging and computationally
expensive to solve using standard optimisation-based techniques. Reinforcement
Learning (RL) could be an interesting alternative, but the application of an
end-to-end approach in which the controller must learn everything from scratch,
is impractical. The solution advocated in this paper is to guide the learning
process within an RL framework by injecting physical knowledge. This expedient
brings to widespread benefits, such as a drastic reduction of the learning
time, and the ability to learn and compensate for possible errors in the
low-level controller executing the motion. We demonstrate the advantage of our
approach with respect to both optimization-based and end-to-end RL approaches.
- Abstract(参考訳): 本研究では,モノポッドをジャンプで目標に到達させるという複雑な制御問題を考察する。
モノポッドはあらゆる方向にジャンプでき、足の下の地形は不均一である。
これは、より広い種類の問題のテンプレートであり、標準の最適化ベース技術を使って解くのは非常に困難で計算コストが高い。
強化学習(Reinforcement Learning, RL)は興味深い方法かも知れないが、コントローラがすべてをゼロから学ばなければならないエンドツーエンドのアプローチの適用は現実的ではない。
本稿では,物理知識を注入することにより,RLフレームワーク内での学習プロセスをガイドする。
この迅速性は、学習時間の大幅な削減や、動作を実行する低レベルのコントローラで起こりうるエラーを学習し補償する機能など、幅広い利点をもたらす。
我々は、最適化ベースとエンドツーエンドのrlアプローチの両方に関して、このアプローチの利点を実証する。
関連論文リスト
- Model-Based Transfer Learning for Contextual Reinforcement Learning [5.5597941107270215]
文脈RL問題の解法としてモデルベーストランスファー学習を導入する。
理論的には,本手法は訓練作業数のサブリニアな後悔を示す。
都市交通と標準連続制御ベンチマークを用いて,提案手法を実験的に検証した。
論文 参考訳(メタデータ) (2024-08-08T14:46:01Z) - Transform then Explore: a Simple and Effective Technique for Exploratory Combinatorial Optimization with Reinforcement Learning [11.531786269804707]
グラフ上の最適化問題(COP)を解決するためのゲージ変換(GT)手法を提案する。
GTは非常にシンプルで、10行未満のPythonコードで実装でき、ほとんどの強化学習モデルに適用できる。
GTを用いた従来のRLモデルでは,MaxCut問題に対して最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-04-06T15:31:17Z) - Bootstrapping Reinforcement Learning with Imitation for Vision-Based Agile Flight [20.92646531472541]
本稿では,Reinforcement Learning(RL)とImitation Learning(IL)のサンプル効率を組み合わせた新しいアプローチを提案する。
本フレームワークは、RLを用いた3段階の教員政策と、ILによる学生政策に蒸留する特権状態情報と、RLによる適応微調整とを含む。
テストでは、スクラッチからRLが失敗するシナリオだけでなく、ロバストさとパフォーマンスの両方で既存のILメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-18T19:25:57Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - Reaching the Limit in Autonomous Racing: Optimal Control versus
Reinforcement Learning [66.10854214036605]
ロボット工学における中心的な問題は、アジャイルなモバイルロボットの制御システムをどうやって設計するかである。
本稿では、強化学習(RL)で訓練されたニューラルネットワークコントローラが最適制御(OC)法より優れていることを示す。
その結果、アジャイルドローンを最大性能に押し上げることができ、最大加速速度は重力加速度の12倍以上、ピーク速度は時速108kmに達しました。
論文 参考訳(メタデータ) (2023-10-17T02:40:27Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - On the Theory of Reinforcement Learning with Once-per-Episode Feedback [120.5537226120512]
本稿では,エピソード終盤に一度だけフィードバックを受ける強化学習の理論を紹介する。
これは、学習者が毎回フィードバックを受け取るという従来の要件よりも、現実世界のアプリケーションの代表的です。
論文 参考訳(メタデータ) (2021-05-29T19:48:51Z) - Towards General and Autonomous Learning of Core Skills: A Case Study in
Locomotion [19.285099263193622]
我々は,足の広いロボットに対して,洗練された移動動作を学習できる学習フレームワークを開発した。
我々の学習フレームワークは、データ効率のよいマルチタスクRLアルゴリズムと、ロボット間で意味論的に同一の報酬関数のセットに依存している。
現実世界の四足ロボットを含む9種類のロボットに対して、同じアルゴリズムが、多種多様な再利用可能な運動スキルを迅速に学習できることを実証する。
論文 参考訳(メタデータ) (2020-08-06T08:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。