論文の概要: Tiny Reinforcement Learning for Quadruped Locomotion using Decision
Transformers
- arxiv url: http://arxiv.org/abs/2402.13201v1
- Date: Tue, 20 Feb 2024 18:10:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 14:08:54.815296
- Title: Tiny Reinforcement Learning for Quadruped Locomotion using Decision
Transformers
- Title(参考訳): 決定変換器を用いた四足歩行の微小強化学習
- Authors: Orhan Eren Akg\"un, N\'estor Cuevas, Matheus Farias, Daniel Garces
- Abstract要約: リソース制約のあるロボットプラットフォームは、低コストのハードウェア代替品を必要とするタスクに役立ちます。
本稿では,資源制約のあるロボットプラットフォーム上での模倣学習を実現する手法を提案する。
本手法は資源制約された四足歩行ロボットであるBittleの自然視運動を実現する。
- 参考スコア(独自算出の注目度): 0.9217021281095907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Resource-constrained robotic platforms are particularly useful for tasks that
require low-cost hardware alternatives due to the risk of losing the robot,
like in search-and-rescue applications, or the need for a large number of
devices, like in swarm robotics. For this reason, it is crucial to find
mechanisms for adapting reinforcement learning techniques to the constraints
imposed by lower computational power and smaller memory capacities of these
ultra low-cost robotic platforms. We try to address this need by proposing a
method for making imitation learning deployable onto resource-constrained
robotic platforms. Here we cast the imitation learning problem as a conditional
sequence modeling task and we train a decision transformer using expert
demonstrations augmented with a custom reward. Then, we compress the resulting
generative model using software optimization schemes, including quantization
and pruning. We test our method in simulation using Isaac Gym, a realistic
physics simulation environment designed for reinforcement learning. We
empirically demonstrate that our method achieves natural looking gaits for
Bittle, a resource-constrained quadruped robot. We also run multiple
simulations to show the effects of pruning and quantization on the performance
of the model. Our results show that quantization (down to 4 bits) and pruning
reduce model size by around 30\% while maintaining a competitive reward, making
the model deployable in a resource-constrained system.
- Abstract(参考訳): 資源に制約のあるロボットプラットフォームは、検索・救助アプリケーションのようなロボットを失うリスクや、Swarm Roboticsのような多数のデバイスを必要とするため、低コストのハードウェア代替品を必要とするタスクに特に有用である。
そのため、これらの超低コストロボットプラットフォームにおいて、計算能力の低下とメモリ容量の低下による制約に強化学習技術を適用するためのメカニズムを見つけることが重要である。
本研究では,資源制約のあるロボットプラットフォームに模倣学習を展開可能にする手法を提案する。
ここでは,模倣学習問題を条件付きシーケンスモデリングタスクとしてキャストし,カスタム報酬を付加したエキスパートデモンストレーションを用いて決定トランスフォーマーを訓練する。
そこで我々は,量子化とプルーニングを含むソフトウェア最適化手法を用いて生成モデルを圧縮する。
本手法は,強化学習のための物理シミュレーション環境であるIsaac Gymを用いて実験を行った。
我々は,資源に制約のある四足歩行ロボットであるbittleに対して,この手法が自然な歩行を実現することを実証的に証明した。
また,複数のシミュレーションを行い,モデルの性能に及ぼすプルーニングと量子化の影響について検討した。
以上の結果から, 定量化(最大4ビット)とプルーニングは, 競争報酬を維持しつつ, モデルサイズを約30倍に削減し, 資源制約されたシステムでモデルをデプロイできるようにした。
関連論文リスト
- RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning
via Generative Simulation [64.51563634951394]
RoboGenはジェネレーティブなロボットエージェントで、ジェネレーティブなシミュレーションを通じて、さまざまなロボットのスキルを自動的に学習する。
我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。
論文 参考訳(メタデータ) (2023-11-02T17:59:21Z) - Not Only Rewards But Also Constraints: Applications on Legged Robot
Locomotion [2.8217421869436126]
本稿では,報酬と制約の両方からなる複雑なロボットシステムのためのニューラルネットワークコントローラをトレーニングするための,新しい強化学習フレームワークを提案する。
学習フレームワークは、異なる形態と物理的特性を持つ複数の脚を持つロボットのトレーニングコントローラに適用され、困難な地形を横断する。
論文 参考訳(メタデータ) (2023-08-24T03:06:20Z) - Mobility-Aware Computation Offloading for Swarm Robotics using Deep
Reinforcement Learning [3.751111087006503]
Swarm Roboticsは、多くの汚れた、危険な、退屈なタスクを自動化することを想定している。
現在のロボットには、限られた時間情報しか提供できない少数のロボットがある。
我々は,モバイルエッジコンピューティングを活用して負担を軽減することを提案する。
論文 参考訳(メタデータ) (2023-08-22T03:20:14Z) - Learning Bipedal Walking for Humanoids with Current Feedback [5.429166905724048]
アクチュエータレベルでの不正確なトルクトラッキングから生じるヒューマノイドロボットのシム2リアルギャップ問題を克服するためのアプローチを提案する。
提案手法は、実際のHRP-5Pヒューマノイドロボットに展開して二足歩行を実現するシミュレーションにおいて、一貫したエンドツーエンドのポリシーをトレーニングする。
論文 参考訳(メタデータ) (2023-03-07T08:16:46Z) - Hindsight States: Blending Sim and Real Task Elements for Efficient
Reinforcement Learning [61.3506230781327]
ロボット工学では、第一原理から導かれた力学モデルに基づくシミュレーションに基づいて、トレーニングデータを生成する方法がある。
ここでは、力学の複雑さの不均衡を利用して、より標本効率のよい学習を行う。
提案手法をいくつかの課題に対して検証し,既存の近視アルゴリズムと組み合わせた場合の学習改善を実証する。
論文 参考訳(メタデータ) (2023-03-03T21:55:04Z) - Obstacle Avoidance for Robotic Manipulator in Joint Space via Improved
Proximal Policy Optimization [6.067589886362815]
本稿では,6-DoFマニピュレータのタスク空間から関節空間にマップするために,改良されたPPOアルゴリズムを用いて深層ニューラルネットワークを訓練する。
実ロボットでそのようなタスクを訓練するのは時間を要するので、モデルを訓練するためのシミュレーション環境を開発する。
実験結果から,ロボットは非構造環境下で1つの目標をトラッキングしたり,複数の目標に到達することができた。
論文 参考訳(メタデータ) (2022-10-03T10:21:57Z) - Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse
Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。
学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:15:12Z) - REvolveR: Continuous Evolutionary Models for Robot-to-robot Policy
Transfer [57.045140028275036]
本研究では,運動学や形態学など,異なるパラメータを持つ2つの異なるロボット間でポリシーを伝達する問題を考察する。
模倣学習手法を含む動作や状態遷移の分布を一致させることで、新しいポリシーを訓練する既存のアプローチは、最適な動作や/または状態分布が異なるロボットでミスマッチしているために失敗する。
本稿では,物理シミュレータに実装されたロボット政策伝達に連続的進化モデルを用いることで,$RevolveR$という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-02-10T18:50:25Z) - Robot Learning from Randomized Simulations: A Review [59.992761565399185]
ディープラーニングがロボティクス研究のパラダイムシフトを引き起こし、大量のデータを必要とする方法が好まれている。
最先端のアプローチは、データ生成が高速かつ安価であるシミュレーションで学ぶ。
本稿では,ランダム化シミュレーションから学習する手法である「領域ランダム化」に焦点をあてる。
論文 参考訳(メタデータ) (2021-11-01T13:55:41Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - robo-gym -- An Open Source Toolkit for Distributed Deep Reinforcement
Learning on Real and Simulated Robots [0.5161531917413708]
本稿では,ロボットによる深層強化学習を向上するためのオープンソースのツールキット,robo-gymを提案する。
シミュレーションにおけるトレーニングからロボットへのシームレスな移動を可能にするシミュレーション環境と実環境の統一的なセットアップを実証する。
産業用ロボットを特徴とする2つの実世界アプリケーションを用いて,本フレームワークの能力と有効性を示す。
論文 参考訳(メタデータ) (2020-07-06T13:51:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。