論文の概要: Discovering Diverse Athletic Jumping Strategies
- arxiv url: http://arxiv.org/abs/2105.00371v1
- Date: Sun, 2 May 2021 01:37:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 13:37:00.364378
- Title: Discovering Diverse Athletic Jumping Strategies
- Title(参考訳): 横走跳躍戦略の発見
- Authors: Zhiqi Yin, Zeshi Yang, Michiel van de Panne, KangKang Yin
- Abstract要約: 本稿では,ハイジャンプなどの運動スキルの多様で自然な運動戦略の発見を可能にする枠組みを提案する。
物理シミュレーションと深層強化学習の組み合わせは、自動制御ポリシートレーニングに適した出発点を提供します。
- 参考スコア(独自算出の注目度): 8.231687569030898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a framework that enables the discovery of diverse and
natural-looking motion strategies for athletic skills such as the high jump.
The strategies are realized as control policies for physics-based characters.
Given a task objective and an initial character configuration, the combination
of physics simulation and deep reinforcement learning (DRL) provides a suitable
starting point for automatic control policy training. To facilitate the
learning of realistic human motions, we propose a Pose Variational Autoencoder
(P-VAE) to constrain the actions to a subspace of natural poses. In contrast to
motion imitation methods, a rich variety of novel strategies can naturally
emerge by exploring initial character states through a sample-efficient
Bayesian diversity search (BDS) algorithm. A second stage of optimization that
encourages novel policies can further enrich the unique strategies discovered.
Our method allows for the discovery of diverse and novel strategies for
athletic jumping motions such as high jumps and obstacle jumps with no motion
examples and less reward engineering than prior work.
- Abstract(参考訳): 本稿では,ハイジャンプなどの運動スキルの多様で自然な運動戦略の発見を可能にする枠組みを提案する。
これらの戦略は物理ベースの文字の制御ポリシーとして実現される。
タスク目標と初期文字設定が与えられた場合,物理シミュレーションと深部強化学習(DRL)を組み合わせることで,自動制御ポリシトレーニングの出発点となる。
現実的な人間の動作の学習を容易にするため,自然ポーズのサブ空間に動作を制約するP-VAE(Pose Variational Autoencoder)を提案する。
動作模倣法とは対照的に、サンプル効率のよいベイズ多様性探索(BDS)アルゴリズムにより、初期文字状態を調べることによって、様々な新しい戦略が自然に現れる。
新たなポリシーを促進する最適化の第2段階は、発見されたユニークな戦略をさらに強化することができる。
提案手法は,運動例のないハイジャンプや障害物ジャンプなどの運動跳躍動作の多様かつ斬新な戦略を,先行研究よりも少ない報酬工学で発見することを可能にする。
関連論文リスト
- Strategy and Skill Learning for Physics-based Table Tennis Animation [8.51262627906337]
本稿では,物理に基づく卓球アニメーションのための戦略とスキル学習手法を提案する。
本手法は,複雑なタスクを実行するために必要な運動能力を完全に活用できないモード崩壊の問題に対処する。
論文 参考訳(メタデータ) (2024-07-23T06:31:13Z) - Emergence of Chemotactic Strategies with Multi-Agent Reinforcement Learning [1.9253333342733674]
ケモタキシーの訓練において,強化学習が生物学的システムに対する洞察を与えることができるかどうかを検討する。
各種エージェントの形状,サイズ,水泳速度をシミュレーションし,生物学的水泳選手の身体的制約,すなわちブラウン運動が,強化学習者のトレーニングが失敗する地域につながるかどうかを判定する。
RLの薬剤は、物理的に可能であればすぐに遊泳でき、場合によっては、アクティブスイミングが環境を圧倒する前にも、遊泳が可能であることが判明した。
論文 参考訳(メタデータ) (2024-04-02T14:42:52Z) - AnySkill: Learning Open-Vocabulary Physical Skill for Interactive Agents [58.807802111818994]
オープンな語彙の指示に従って物理的に妥当な相互作用を学習する新しい階層的手法であるAnySkillを提案する。
我々のアプローチは、模倣学習によって訓練された低レベルコントローラを介して、一連のアトミックアクションを開発することから始まります。
提案手法の重要な特徴は,手動の報酬工学を使わずにオブジェクトとのインタラクションを学習する,高レベルなポリシーに対する画像ベースの報酬の利用である。
論文 参考訳(メタデータ) (2024-03-19T15:41:39Z) - Adaptive Tracking of a Single-Rigid-Body Character in Various
Environments [2.048226951354646]
単剛体キャラクタのシミュレーションに基づく深層強化学習手法を提案する。
中心運動モデル (CDM) を用いて, 全身特性を単一剛体 (SRB) として表現し, 基準運動を追跡する政策を訓練することにより, 様々な未観測環境変化に適応できる政策を得ることができる。
弊社の政策は、超ポータブルラップトップ上で30分以内に効率よく訓練され、学習中に経験されていない環境に対処できることを実証する。
論文 参考訳(メタデータ) (2023-08-14T22:58:54Z) - Robust and Versatile Bipedal Jumping Control through Reinforcement
Learning [141.56016556936865]
この研究は、トルク制御された二足歩行ロボットが実世界で頑丈で多目的なダイナミックジャンプを行えるようにすることで、二足歩行ロボットの機敏さの限界を推し進めることを目的としている。
本稿では,ロボットが様々な場所や方向へジャンプするなど,さまざまなジャンプタスクを達成するための強化学習フレームワークを提案する。
我々は,ロボットの長期入出力(I/O)履歴を符号化し,短期I/O履歴への直接アクセスを可能にする新しいポリシー構造を開発する。
論文 参考訳(メタデータ) (2023-02-19T01:06:09Z) - Learning to Get Up [5.887969742827488]
倒れた状態から立ち上がることは、基本的な人間のスキルです。
このスキルを学ぶための既存の方法は、非常にダイナミックで不安定な持ち上がり動作を生成する。
本研究では, モーションキャプチャーデータに関連性を持たず, 強化学習を用いた段階的アプローチを提案する。
論文 参考訳(メタデータ) (2022-04-30T17:12:30Z) - Adversarial Motion Priors Make Good Substitutes for Complex Reward
Functions [124.11520774395748]
強化学習実践者は、身体的にもっともらしい行動を促進する複雑な報酬関数を利用することが多い。
そこで我々は,モーションキャプチャのデモンストレーションデータセットから学習した「スタイル報酬」で複雑な報酬関数を置換する手法を提案する。
学習スタイルの報酬と任意のタスク報酬を組み合わせることで、自然主義戦略を使ってタスクを実行するポリシーを訓練することができる。
論文 参考訳(メタデータ) (2022-03-28T21:17:36Z) - Learning Task-Agnostic Action Spaces for Movement Optimization [18.37812596641983]
そこで本研究では,物理ベースのアニメーションキャラクターのダイナミクスを探索する新しい手法を提案する。
目標状態としてアクションをパラメータ化し、目標に向かってエージェントの状態を駆動する短水平目標条件の低レベル制御ポリシーを学習する。
論文 参考訳(メタデータ) (2020-09-22T06:18:56Z) - Reinforcement Learning with Fast Stabilization in Linear Dynamical
Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。
本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。
提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文 参考訳(メタデータ) (2020-07-23T23:06:40Z) - TENet: Triple Excitation Network for Video Salient Object Detection [57.72696926903698]
我々は、ビデオ・サリエント・オブジェクト検出(VSOD)のトレーニングを強化するため、トリプル・エキサイティング・ネットワーク(Triple Excitation Network)というシンプルで効果的なアプローチを提案する。
これらの励磁機構は、カリキュラム学習の精神に従って設計され、訓練開始時の学習を減らすことを目的としている。
私たちの半カリキュラム学習設計では、VSODのオンライン戦略を初めて実現しています。
論文 参考訳(メタデータ) (2020-07-20T08:45:41Z) - Evolutionary Stochastic Policy Distillation [139.54121001226451]
本稿では,GCRS課題を解決するための進化的政策蒸留法(ESPD)を提案する。
ESPDは、政策蒸留(PD)技術により、ターゲットポリシーを一連の変種から学習することを可能にする
MuJoCo制御系に基づく実験により,提案手法の学習効率が向上した。
論文 参考訳(メタデータ) (2020-04-27T16:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。