論文の概要: Adaptive Tracking of a Single-Rigid-Body Character in Various
Environments
- arxiv url: http://arxiv.org/abs/2308.07491v2
- Date: Mon, 11 Sep 2023 10:32:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 18:56:54.703375
- Title: Adaptive Tracking of a Single-Rigid-Body Character in Various
Environments
- Title(参考訳): 各種環境におけるシングルライギッド・ボディ特性の適応的追跡
- Authors: Taesoo Kwon, Taehong Gu, Jaewon Ahn, Yoonsang Lee
- Abstract要約: 単剛体キャラクタのシミュレーションに基づく深層強化学習手法を提案する。
中心運動モデル (CDM) を用いて, 全身特性を単一剛体 (SRB) として表現し, 基準運動を追跡する政策を訓練することにより, 様々な未観測環境変化に適応できる政策を得ることができる。
弊社の政策は、超ポータブルラップトップ上で30分以内に効率よく訓練され、学習中に経験されていない環境に対処できることを実証する。
- 参考スコア(独自算出の注目度): 2.048226951354646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since the introduction of DeepMimic [Peng et al. 2018], subsequent research
has focused on expanding the repertoire of simulated motions across various
scenarios. In this study, we propose an alternative approach for this goal, a
deep reinforcement learning method based on the simulation of a
single-rigid-body character. Using the centroidal dynamics model (CDM) to
express the full-body character as a single rigid body (SRB) and training a
policy to track a reference motion, we can obtain a policy that is capable of
adapting to various unobserved environmental changes and controller transitions
without requiring any additional learning. Due to the reduced dimension of
state and action space, the learning process is sample-efficient. The final
full-body motion is kinematically generated in a physically plausible way,
based on the state of the simulated SRB character. The SRB simulation is
formulated as a quadratic programming (QP) problem, and the policy outputs an
action that allows the SRB character to follow the reference motion. We
demonstrate that our policy, efficiently trained within 30 minutes on an
ultraportable laptop, has the ability to cope with environments that have not
been experienced during learning, such as running on uneven terrain or pushing
a box, and transitions between learned policies, without any additional
learning.
- Abstract(参考訳): DeepMimic[Peng et al. 2018]の導入以来、その後の研究は様々なシナリオでシミュレートされた動きのレパートリーの拡大に焦点を当ててきた。
本研究では,この目標に対する代替手法を提案する。この手法は,物体の単一文字のシミュレーションに基づく深層強化学習手法である。
中心運動力学モデル(CDM)を用いて、全体特性を単一の剛体(SRB)として表現し、基準運動を追跡するためのポリシーを訓練することにより、追加の学習を必要とせず、様々な未観測環境変化や制御遷移に適応可能なポリシーを得ることができる。
状態空間と行動空間の次元が減少しているため、学習プロセスはサンプル効率が良い。
最終全体運動は、シミュレートされたSRBキャラクタの状態に基づいて、物理的に妥当な方法で運動的に生成される。
SRBシミュレーションは、二次プログラミング(QP)問題として定式化され、ポリシーは、SRBキャラクタが参照動作に従うことができるアクションを出力する。
われわれは,超ポータブルノートパソコン上で30分以内に効率よくトレーニングし,不均一な地形を走ったり,箱を押したり,学習方針間の遷移など,学習中に経験されていない環境に対処できることを実証した。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Zero-shot Sim2Real Adaptation Across Environments [45.44896435487879]
本稿では,実世界のシミュレートされたポリシーを模倣することを学ぶリバースアクショントランスフォーメーション(RAT)ポリシーを提案する。
RATは、新しい環境へのゼロショット適応を達成するために、Universal Policy Network上にデプロイできる。
論文 参考訳(メタデータ) (2023-02-08T11:59:07Z) - DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to
Reality [64.51295032956118]
我々は人型ロボットの手で頑健な操作を行える政策を訓練する。
本研究は,各種ハードウェアおよびシミュレータのデクスタラス操作におけるsim-to-real転送の可能性を再確認する。
論文 参考訳(メタデータ) (2022-10-25T01:51:36Z) - A Survey on Reinforcement Learning Methods in Character Animation [22.3342752080749]
強化学習(Reinforcement Learning)は、エージェントがシーケンシャルな決定をするためにどのようにトレーニングできるかに焦点を当てた機械学習の分野である。
本稿では,現代のDeep Reinforcement Learning法を調査し,キャラクタアニメーションにおける応用の可能性について考察する。
論文 参考訳(メタデータ) (2022-03-07T23:39:00Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - Error-Aware Policy Learning: Zero-Shot Generalization in Partially
Observable Dynamic Environments [18.8481771211768]
新しい環境に適応できる政策を開発することで、このようなシム・トゥ・リアル問題に取り組むための新しいアプローチを紹介します。
私たちのアプローチの鍵は、トレーニング中に観察できない要因の影響を明示的に認識するエラー認識ポリシー(EAP)です。
ヒップトルク補助装置の訓練されたEAPは, 生体力学的特性の異なる異なる人体エージェントに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-03-13T15:36:44Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Sim2Real Transfer for Reinforcement Learning without Dynamics
Randomization [0.0]
カーデシアン空間における強化学習において,作業空間制御フレームワーク(OSC)を協調的およびカルデシアン的制約下で利用する方法について述べる。
提案手法は,動的ランダム化を伴わずにポリシーを伝達できる一方で,高速かつ調整可能な自由度で学習することができる。
論文 参考訳(メタデータ) (2020-02-19T11:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。