論文の概要: Biomechanic Posture Stabilisation via Iterative Training of Multi-policy
Deep Reinforcement Learning Agents
- arxiv url: http://arxiv.org/abs/2008.12210v1
- Date: Fri, 21 Aug 2020 05:58:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 22:14:31.314947
- Title: Biomechanic Posture Stabilisation via Iterative Training of Multi-policy
Deep Reinforcement Learning Agents
- Title(参考訳): 多目的強化学習エージェントの反復訓練による生体力学的姿勢安定化
- Authors: Mohammed Hossny and Julie Iskander
- Abstract要約: 本研究は, エージェントが有限の行動群を学習し, 安定的な姿勢を達成するための協調方法を学習するための, 深層強化学習のための反復的訓練手順を導入する。
提案手法により,従来の訓練法を用いて4秒から348秒までの起立時間を増加させることができた。
- 参考スコア(独自算出の注目度): 2.0303656145222857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is not until we become senior citizens do we recognise how much we took
maintaining a simple standing posture for granted. It is truly fascinating to
observe the magnitude of control the human brain exercises, in real time, to
activate and deactivate the lower body muscles and solve a multi-link 3D
inverted pendulum problem in order to maintain a stable standing posture. This
realisation is even more apparent when training an artificial intelligence (AI)
agent to maintain a standing posture of a digital musculoskeletal avatar due to
the error propagation problem. In this work we address the error propagation
problem by introducing an iterative training procedure for deep reinforcement
learning which allows the agent to learn a finite set of actions and how to
coordinate between them in order to achieve a stable standing posture. The
proposed training approach allowed the agent to increase standing duration from
4 seconds using the traditional training method to 348 seconds using the
proposed method. The proposed training method allowed the agent to generalise
and accommodate perception and actuation noise for almost 108 seconds.
- Abstract(参考訳): 高齢者になるまでは、単純なスタンディング姿勢を維持するのにどれほどの時間を費やしたかは認識できません。
人間の脳の運動の制御の大きさをリアルタイムで観察し、下半身の筋肉を活性化・不活性化し、安定した立位を維持するために多リンク3d倒立振子問題を解くことは本当に興味深い。
この実現は、人工知能(AI)エージェントをトレーニングして、エラー伝搬問題によるデジタル筋骨格アバターの立位姿勢を維持する際にさらに顕著である。
本研究では,エージェントが有限個の動作セットを学習し,それらの間の協調によって安定した立位を実現するための反復的な学習手順を導入することで,誤り伝播問題に対処する。
提案手法により,従来の訓練法を用いて4秒から348秒までの起立時間を増加させることができた。
提案手法により,約108秒間の知覚・アクティベーションノイズの一般化と適応が可能となった。
関連論文リスト
- GUIDE: Real-Time Human-Shaped Agents [4.676987516944155]
リアルタイム強化学習のためのGUIDEを紹介した。
人間のフィードバックが10分しかなく、我々のアルゴリズムはRLベースラインと比較して最大30%の成功率を達成できる。
論文 参考訳(メタデータ) (2024-10-19T18:59:39Z) - Decision Making for Human-in-the-loop Robotic Agents via
Uncertainty-Aware Reinforcement Learning [13.184897303302971]
ヒューマン・イン・ザ・ループ(Human-in-the-Loop)パラダイムでは、ロボットエージェントはタスクの解決において主に自律的に行動するが、必要に応じて外部の専門家から助けを求めることができる。
本稿では,この課題に対する強化学習に基づくアプローチを提案する。そこでは,半自律エージェントが,タスクの最終的な成功に対する信頼度が低い場合に,外部支援を求める。
本手法は,訓練時に専門家にアクセスできないにも関わらず,実行時に限られた専門家コールの予算を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2023-03-12T17:22:54Z) - Improving Behavioural Cloning with Human-Driven Dynamic Dataset
Augmentation [0.0]
動作クローンとループ内のトレーニングを組み合わせることで、その欠陥のいくつかが解決されることを示す。
本稿では,シミュレーション中にエージェントをいつでも制御できる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-01-19T16:57:17Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - From Motor Control to Team Play in Simulated Humanoid Football [56.86144022071756]
我々は、現実的な仮想環境でサッカーをするために、物理的にシミュレートされたヒューマノイドアバターのチームを訓練する。
一連の段階において、プレイヤーはまず、現実的な人間のような動きを実行するために、完全に関節化された身体を制御することを学習する。
その後、ドリブルやシューティングといった中級のサッカーのスキルを身につける。
最後に、彼らは他の人を意識し、チームとしてプレーし、ミリ秒のタイムスケールで低レベルのモーターコントロールのギャップを埋める。
論文 参考訳(メタデータ) (2021-05-25T20:17:10Z) - Learning Agile Locomotion via Adversarial Training [59.03007947334165]
本稿では,四足歩行ロボット(主人公)が他のロボット(敵)を追いかけるのを学習し,後者が逃げることを学習するマルチエージェント学習システムを提案する。
この敵対的なトレーニングプロセスは、アジャイルの振る舞いを促進するだけでなく、退屈な環境設計の努力を効果的に軽減します。
1つの敵のみを使用した以前の作品とは対照的に、異なる逃走戦略を専門とする敵のアンサンブルを訓練することは、主人公がアジリティを習得するために不可欠である。
論文 参考訳(メタデータ) (2020-08-03T01:20:37Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Towards Understanding Fast Adversarial Training [91.8060431517248]
高速対人訓練の振る舞いを理解するために実験を行う。
その成功の鍵は、過度な適合から弱い攻撃への回復能力である。
論文 参考訳(メタデータ) (2020-06-04T18:19:43Z) - Reinforcement Learning with Iterative Reasoning for Merging in Dense
Traffic [41.46201285202203]
密集した交通量を減らすことは、自動運転車にとって難しい課題だ。
本稿では,強化学習とゲーム理論を組み合わせて,融合行動の学習を行う。
論文 参考訳(メタデータ) (2020-05-25T02:57:19Z) - Towards Learning to Imitate from a Single Video Demonstration [11.15358253586118]
我々は,映像観察を模倣して学習できる強化学習エージェントを開発した。
我々は、Siameseリカレントニューラルネットワークアーキテクチャを使用して、モーションクリップ間の空間と時間における報酬を学習する。
シミュレーションされたヒューマノイド, 犬, ラプターエージェントを2D, 四足歩行, ヒューマノイドを3Dで示す。
論文 参考訳(メタデータ) (2019-01-22T06:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。