Fugu-MT 論文翻訳(概要): Tiny Reinforcement Learning for Quadruped Locomotion using Decision Transformers

論文の概要: Tiny Reinforcement Learning for Quadruped Locomotion using Decision Transformers

arxiv url: http://arxiv.org/abs/2402.13201v1
Date: Tue, 20 Feb 2024 18:10:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 14:08:54.815296
Title: Tiny Reinforcement Learning for Quadruped Locomotion using Decision Transformers
Title（参考訳）: 決定変換器を用いた四足歩行の微小強化学習
Authors: Orhan Eren Akg\"un, N\'estor Cuevas, Matheus Farias, Daniel Garces
Abstract要約: リソース制約のあるロボットプラットフォームは、低コストのハードウェア代替品を必要とするタスクに役立ちます。本稿では,資源制約のあるロボットプラットフォーム上での模倣学習を実現する手法を提案する。本手法は資源制約された四足歩行ロボットであるBittleの自然視運動を実現する。
参考スコア（独自算出の注目度）: 0.9217021281095907
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Resource-constrained robotic platforms are particularly useful for tasks that require low-cost hardware alternatives due to the risk of losing the robot, like in search-and-rescue applications, or the need for a large number of devices, like in swarm robotics. For this reason, it is crucial to find mechanisms for adapting reinforcement learning techniques to the constraints imposed by lower computational power and smaller memory capacities of these ultra low-cost robotic platforms. We try to address this need by proposing a method for making imitation learning deployable onto resource-constrained robotic platforms. Here we cast the imitation learning problem as a conditional sequence modeling task and we train a decision transformer using expert demonstrations augmented with a custom reward. Then, we compress the resulting generative model using software optimization schemes, including quantization and pruning. We test our method in simulation using Isaac Gym, a realistic physics simulation environment designed for reinforcement learning. We empirically demonstrate that our method achieves natural looking gaits for Bittle, a resource-constrained quadruped robot. We also run multiple simulations to show the effects of pruning and quantization on the performance of the model. Our results show that quantization (down to 4 bits) and pruning reduce model size by around 30\% while maintaining a competitive reward, making the model deployable in a resource-constrained system.
Abstract（参考訳）: 資源に制約のあるロボットプラットフォームは、検索・救助アプリケーションのようなロボットを失うリスクや、Swarm Roboticsのような多数のデバイスを必要とするため、低コストのハードウェア代替品を必要とするタスクに特に有用である。そのため、これらの超低コストロボットプラットフォームにおいて、計算能力の低下とメモリ容量の低下による制約に強化学習技術を適用するためのメカニズムを見つけることが重要である。本研究では,資源制約のあるロボットプラットフォームに模倣学習を展開可能にする手法を提案する。ここでは,模倣学習問題を条件付きシーケンスモデリングタスクとしてキャストし,カスタム報酬を付加したエキスパートデモンストレーションを用いて決定トランスフォーマーを訓練する。そこで我々は,量子化とプルーニングを含むソフトウェア最適化手法を用いて生成モデルを圧縮する。本手法は,強化学習のための物理シミュレーション環境であるIsaac Gymを用いて実験を行った。我々は,資源に制約のある四足歩行ロボットであるbittleに対して,この手法が自然な歩行を実現することを実証的に証明した。また,複数のシミュレーションを行い,モデルの性能に及ぼすプルーニングと量子化の影響について検討した。以上の結果から, 定量化(最大4ビット)とプルーニングは, 競争報酬を維持しつつ, モデルサイズを約30倍に削減し, 資源制約されたシステムでモデルをデプロイできるようにした。

関連論文リスト

Imitating What Works: Simulation-Filtered Modular Policy Learning from Human Videos [56.510263910611684]
本研究では,様々な動作を行う前に物体をつかむタスクを包括的操作に対処する。人間のビデオは、移植後の動作を学ぶための強力な信号を提供するが、必要な把握行動を学ぶのにはあまり役に立たない。本稿では、人間の動画モーションデータを用いたモジュラー操作ポリシーをトレーニングするためのフレームワークであるPerceive-Simulate-Imitate(PSI)を提案する。
論文参考訳（メタデータ） (2026-02-13T18:59:10Z)
Action Flow Matching for Continual Robot Learning [57.698553219660376]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文参考訳（メタデータ） (2025-04-25T16:26:15Z)
DiffGen: Robot Demonstration Generation via Differentiable Physics Simulation, Differentiable Rendering, and Vision-Language Model [72.66465487508556]
DiffGenは、微分可能な物理シミュレーション、微分可能なレンダリング、ビジョン言語モデルを統合する新しいフレームワークである。言語命令の埋め込みとシミュレートされた観察の埋め込みとの距離を最小化することにより、現実的なロボットデモを生成することができる。実験によると、DiffGenを使えば、人間の努力やトレーニング時間を最小限に抑えて、ロボットデータを効率よく、効果的に生成できる。
論文参考訳（メタデータ） (2024-05-12T15:38:17Z)
Learning Quadruped Locomotion Using Differentiable Simulation [31.80380408663424]
微分可能シミュレーションは、高速収束と安定した訓練を約束する。本研究はこれらの課題を克服するための新しい微分可能シミュレーションフレームワークを提案する。我々のフレームワークは並列化なしで数分で四足歩行を学習できる。
論文参考訳（メタデータ） (2024-03-21T22:18:59Z)
RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation [68.70755196744533]
RoboGenはジェネレーティブなロボットエージェントで、ジェネレーティブなシミュレーションを通じて、さまざまなロボットのスキルを自動的に学習する。我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。
論文参考訳（メタデータ） (2023-11-02T17:59:21Z)
Not Only Rewards But Also Constraints: Applications on Legged Robot Locomotion [2.7052274816160966]
本稿では,報酬と制約の両方からなる複雑なロボットシステムのためのニューラルネットワークコントローラをトレーニングするための,新しい強化学習フレームワークを提案する。学習フレームワークは、異なる形態と物理的特性を持つ複数の脚を持つロボットのトレーニングコントローラに適用され、困難な地形を横断する。
論文参考訳（メタデータ） (2023-08-24T03:06:20Z)
Learning Bipedal Walking for Humanoids with Current Feedback [5.429166905724048]
アクチュエータレベルでの不正確なトルクトラッキングから生じるヒューマノイドロボットのシム2リアルギャップ問題を克服するためのアプローチを提案する。提案手法は、実際のHRP-5Pヒューマノイドロボットに展開して二足歩行を実現するシミュレーションにおいて、一貫したエンドツーエンドのポリシーをトレーニングする。
論文参考訳（メタデータ） (2023-03-07T08:16:46Z)
Obstacle Avoidance for Robotic Manipulator in Joint Space via Improved Proximal Policy Optimization [6.067589886362815]
本稿では,6-DoFマニピュレータのタスク空間から関節空間にマップするために,改良されたPPOアルゴリズムを用いて深層ニューラルネットワークを訓練する。実ロボットでそのようなタスクを訓練するのは時間を要するので、モデルを訓練するためのシミュレーション環境を開発する。実験結果から,ロボットは非構造環境下で1つの目標をトラッキングしたり,複数の目標に到達することができた。
論文参考訳（メタデータ） (2022-10-03T10:21:57Z)
Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文参考訳（メタデータ） (2022-09-07T15:15:12Z)
REvolveR: Continuous Evolutionary Models for Robot-to-robot Policy Transfer [57.045140028275036]
本研究では,運動学や形態学など,異なるパラメータを持つ2つの異なるロボット間でポリシーを伝達する問題を考察する。模倣学習手法を含む動作や状態遷移の分布を一致させることで、新しいポリシーを訓練する既存のアプローチは、最適な動作や/または状態分布が異なるロボットでミスマッチしているために失敗する。本稿では,物理シミュレータに実装されたロボット政策伝達に連続的進化モデルを用いることで,$RevolveR$という新しい手法を提案する。
論文参考訳（メタデータ） (2022-02-10T18:50:25Z)
Robot Learning from Randomized Simulations: A Review [59.992761565399185]
ディープラーニングがロボティクス研究のパラダイムシフトを引き起こし、大量のデータを必要とする方法が好まれている。最先端のアプローチは、データ生成が高速かつ安価であるシミュレーションで学ぶ。本稿では,ランダム化シミュレーションから学習する手法である「領域ランダム化」に焦点をあてる。
論文参考訳（メタデータ） (2021-11-01T13:55:41Z)
Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文参考訳（メタデータ） (2021-03-05T14:16:20Z)
robo-gym -- An Open Source Toolkit for Distributed Deep Reinforcement Learning on Real and Simulated Robots [0.5161531917413708]
本稿では,ロボットによる深層強化学習を向上するためのオープンソースのツールキット,robo-gymを提案する。シミュレーションにおけるトレーニングからロボットへのシームレスな移動を可能にするシミュレーション環境と実環境の統一的なセットアップを実証する。産業用ロボットを特徴とする2つの実世界アプリケーションを用いて,本フレームワークの能力と有効性を示す。
論文参考訳（メタデータ） (2020-07-06T13:51:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。