論文の概要: Tiny Reinforcement Learning for Quadruped Locomotion using Decision
Transformers
- arxiv url: http://arxiv.org/abs/2402.13201v1
- Date: Tue, 20 Feb 2024 18:10:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 14:08:54.815296
- Title: Tiny Reinforcement Learning for Quadruped Locomotion using Decision
Transformers
- Title(参考訳): 決定変換器を用いた四足歩行の微小強化学習
- Authors: Orhan Eren Akg\"un, N\'estor Cuevas, Matheus Farias, Daniel Garces
- Abstract要約: リソース制約のあるロボットプラットフォームは、低コストのハードウェア代替品を必要とするタスクに役立ちます。
本稿では,資源制約のあるロボットプラットフォーム上での模倣学習を実現する手法を提案する。
本手法は資源制約された四足歩行ロボットであるBittleの自然視運動を実現する。
- 参考スコア(独自算出の注目度): 0.9217021281095907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Resource-constrained robotic platforms are particularly useful for tasks that
require low-cost hardware alternatives due to the risk of losing the robot,
like in search-and-rescue applications, or the need for a large number of
devices, like in swarm robotics. For this reason, it is crucial to find
mechanisms for adapting reinforcement learning techniques to the constraints
imposed by lower computational power and smaller memory capacities of these
ultra low-cost robotic platforms. We try to address this need by proposing a
method for making imitation learning deployable onto resource-constrained
robotic platforms. Here we cast the imitation learning problem as a conditional
sequence modeling task and we train a decision transformer using expert
demonstrations augmented with a custom reward. Then, we compress the resulting
generative model using software optimization schemes, including quantization
and pruning. We test our method in simulation using Isaac Gym, a realistic
physics simulation environment designed for reinforcement learning. We
empirically demonstrate that our method achieves natural looking gaits for
Bittle, a resource-constrained quadruped robot. We also run multiple
simulations to show the effects of pruning and quantization on the performance
of the model. Our results show that quantization (down to 4 bits) and pruning
reduce model size by around 30\% while maintaining a competitive reward, making
the model deployable in a resource-constrained system.
- Abstract(参考訳): 資源に制約のあるロボットプラットフォームは、検索・救助アプリケーションのようなロボットを失うリスクや、Swarm Roboticsのような多数のデバイスを必要とするため、低コストのハードウェア代替品を必要とするタスクに特に有用である。
そのため、これらの超低コストロボットプラットフォームにおいて、計算能力の低下とメモリ容量の低下による制約に強化学習技術を適用するためのメカニズムを見つけることが重要である。
本研究では,資源制約のあるロボットプラットフォームに模倣学習を展開可能にする手法を提案する。
ここでは,模倣学習問題を条件付きシーケンスモデリングタスクとしてキャストし,カスタム報酬を付加したエキスパートデモンストレーションを用いて決定トランスフォーマーを訓練する。
そこで我々は,量子化とプルーニングを含むソフトウェア最適化手法を用いて生成モデルを圧縮する。
本手法は,強化学習のための物理シミュレーション環境であるIsaac Gymを用いて実験を行った。
我々は,資源に制約のある四足歩行ロボットであるbittleに対して,この手法が自然な歩行を実現することを実証的に証明した。
また,複数のシミュレーションを行い,モデルの性能に及ぼすプルーニングと量子化の影響について検討した。
以上の結果から, 定量化(最大4ビット)とプルーニングは, 競争報酬を維持しつつ, モデルサイズを約30倍に削減し, 資源制約されたシステムでモデルをデプロイできるようにした。
関連論文リスト
- DiffGen: Robot Demonstration Generation via Differentiable Physics Simulation, Differentiable Rendering, and Vision-Language Model [72.66465487508556]
DiffGenは、微分可能な物理シミュレーション、微分可能なレンダリング、ビジョン言語モデルを統合する新しいフレームワークである。
言語命令の埋め込みとシミュレートされた観察の埋め込みとの距離を最小化することにより、現実的なロボットデモを生成することができる。
実験によると、DiffGenを使えば、人間の努力やトレーニング時間を最小限に抑えて、ロボットデータを効率よく、効果的に生成できる。
論文 参考訳(メタデータ) (2024-05-12T15:38:17Z) - Learning Quadruped Locomotion Using Differentiable Simulation [31.80380408663424]
微分可能シミュレーションは、高速収束と安定した訓練を約束する。
本研究はこれらの課題を克服するための新しい微分可能シミュレーションフレームワークを提案する。
我々のフレームワークは並列化なしで数分で四足歩行を学習できる。
論文 参考訳(メタデータ) (2024-03-21T22:18:59Z) - RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation [68.70755196744533]
RoboGenはジェネレーティブなロボットエージェントで、ジェネレーティブなシミュレーションを通じて、さまざまなロボットのスキルを自動的に学習する。
我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。
論文 参考訳(メタデータ) (2023-11-02T17:59:21Z) - Not Only Rewards But Also Constraints: Applications on Legged Robot Locomotion [2.7052274816160966]
本稿では,報酬と制約の両方からなる複雑なロボットシステムのためのニューラルネットワークコントローラをトレーニングするための,新しい強化学習フレームワークを提案する。
学習フレームワークは、異なる形態と物理的特性を持つ複数の脚を持つロボットのトレーニングコントローラに適用され、困難な地形を横断する。
論文 参考訳(メタデータ) (2023-08-24T03:06:20Z) - Learning Bipedal Walking for Humanoids with Current Feedback [5.429166905724048]
アクチュエータレベルでの不正確なトルクトラッキングから生じるヒューマノイドロボットのシム2リアルギャップ問題を克服するためのアプローチを提案する。
提案手法は、実際のHRP-5Pヒューマノイドロボットに展開して二足歩行を実現するシミュレーションにおいて、一貫したエンドツーエンドのポリシーをトレーニングする。
論文 参考訳(メタデータ) (2023-03-07T08:16:46Z) - Obstacle Avoidance for Robotic Manipulator in Joint Space via Improved
Proximal Policy Optimization [6.067589886362815]
本稿では,6-DoFマニピュレータのタスク空間から関節空間にマップするために,改良されたPPOアルゴリズムを用いて深層ニューラルネットワークを訓練する。
実ロボットでそのようなタスクを訓練するのは時間を要するので、モデルを訓練するためのシミュレーション環境を開発する。
実験結果から,ロボットは非構造環境下で1つの目標をトラッキングしたり,複数の目標に到達することができた。
論文 参考訳(メタデータ) (2022-10-03T10:21:57Z) - Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse
Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。
学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:15:12Z) - REvolveR: Continuous Evolutionary Models for Robot-to-robot Policy
Transfer [57.045140028275036]
本研究では,運動学や形態学など,異なるパラメータを持つ2つの異なるロボット間でポリシーを伝達する問題を考察する。
模倣学習手法を含む動作や状態遷移の分布を一致させることで、新しいポリシーを訓練する既存のアプローチは、最適な動作や/または状態分布が異なるロボットでミスマッチしているために失敗する。
本稿では,物理シミュレータに実装されたロボット政策伝達に連続的進化モデルを用いることで,$RevolveR$という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-02-10T18:50:25Z) - Robot Learning from Randomized Simulations: A Review [59.992761565399185]
ディープラーニングがロボティクス研究のパラダイムシフトを引き起こし、大量のデータを必要とする方法が好まれている。
最先端のアプローチは、データ生成が高速かつ安価であるシミュレーションで学ぶ。
本稿では,ランダム化シミュレーションから学習する手法である「領域ランダム化」に焦点をあてる。
論文 参考訳(メタデータ) (2021-11-01T13:55:41Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - robo-gym -- An Open Source Toolkit for Distributed Deep Reinforcement
Learning on Real and Simulated Robots [0.5161531917413708]
本稿では,ロボットによる深層強化学習を向上するためのオープンソースのツールキット,robo-gymを提案する。
シミュレーションにおけるトレーニングからロボットへのシームレスな移動を可能にするシミュレーション環境と実環境の統一的なセットアップを実証する。
産業用ロボットを特徴とする2つの実世界アプリケーションを用いて,本フレームワークの能力と有効性を示す。
論文 参考訳(メタデータ) (2020-07-06T13:51:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。