論文の概要: Infer and Adapt: Bipedal Locomotion Reward Learning from Demonstrations
via Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2309.16074v1
- Date: Thu, 28 Sep 2023 00:11:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 18:25:11.568628
- Title: Infer and Adapt: Bipedal Locomotion Reward Learning from Demonstrations
via Inverse Reinforcement Learning
- Title(参考訳): infer and adapt: 逆強化学習による実演による二足歩行報酬学習
- Authors: Feiyang Wu, Zhaoyuan Gu, Hanran Wu, Anqi Wu, Ye Zhao
- Abstract要約: 本稿では、複雑な地形上の二足歩行問題を解決するために、最先端の逆強化学習(IRL)技術を導入する。
専門家の報酬関数を学習するためのアルゴリズムを提案し、その後、学習関数を解析する。
両足歩行ポリシーを推定報酬関数で訓練することで、視認できない地形での歩行性能が向上することが実証的に実証された。
- 参考スコア(独自算出の注目度): 5.246548532908499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enabling bipedal walking robots to learn how to maneuver over highly uneven,
dynamically changing terrains is challenging due to the complexity of robot
dynamics and interacted environments. Recent advancements in learning from
demonstrations have shown promising results for robot learning in complex
environments. While imitation learning of expert policies has been
well-explored, the study of learning expert reward functions is largely
under-explored in legged locomotion. This paper brings state-of-the-art Inverse
Reinforcement Learning (IRL) techniques to solving bipedal locomotion problems
over complex terrains. We propose algorithms for learning expert reward
functions, and we subsequently analyze the learned functions. Through nonlinear
function approximation, we uncover meaningful insights into the expert's
locomotion strategies. Furthermore, we empirically demonstrate that training a
bipedal locomotion policy with the inferred reward functions enhances its
walking performance on unseen terrains, highlighting the adaptability offered
by reward learning.
- Abstract(参考訳): 二足歩行ロボットが高度に不均一で動的に変化する地形を操る方法を学ぶことは、ロボットのダイナミクスと相互作用する環境の複雑さのために困難である。
デモから学ぶことの最近の進歩は、複雑な環境でのロボット学習に有望な結果を示している。
専門家政策の模倣学習はよく研究されているが、専門家報酬関数の学習の研究は足の移動においてほとんど未熟である。
本稿では、複雑な地形上の二足歩行問題を解決するために、最先端の逆強化学習(IRL)技術を導入する。
専門家の報酬関数を学習するためのアルゴリズムを提案し,その学習関数を解析した。
非線形関数近似により,専門家の移動戦略に対する有意義な洞察を明らかにする。
さらに,推定報酬関数を用いた二足歩行政策のトレーニングが,見知らぬ地形での歩行性能を高めることを実証的に示し,報奨学習がもたらす適応性を強調した。
関連論文リスト
- Exciting Action: Investigating Efficient Exploration for Learning Musculoskeletal Humanoid Locomotion [16.63152794060493]
敵の模倣学習が鍵となる問題を分析し、解決策を提供することでこの問題に対処できることを実証する。
16自由度と92自由度を持つ擬似ヒューマノイドモデルを用いて歩行歩行と歩行歩行を学習し,その方法論を検証した。
論文 参考訳(メタデータ) (2024-07-16T12:27:55Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Learning Robust, Agile, Natural Legged Locomotion Skills in the Wild [17.336553501547282]
我々は、挑戦的な地形上で頑丈で、アジャイルで、自然な足の運動スキルを学ぶための新しいフレームワークを提案する。
四足歩行ロボットのシミュレーションと実世界における実証実験の結果,提案アルゴリズムは難易度の高い地形を頑健に横断できることを示した。
論文 参考訳(メタデータ) (2023-04-21T11:09:23Z) - Learning and Adapting Agile Locomotion Skills by Transferring Experience [71.8926510772552]
本稿では,既存のコントローラから新しいタスクを学習するために経験を移譲することで,複雑なロボティクススキルを訓練するためのフレームワークを提案する。
提案手法は,複雑なアジャイルジャンプ行動の学習,後肢を歩いたまま目標地点への移動,新しい環境への適応を可能にする。
論文 参考訳(メタデータ) (2023-04-19T17:37:54Z) - Hierarchical Reinforcement Learning of Locomotion Policies in Response
to Approaching Objects: A Preliminary Study [11.919315372249802]
深層強化学習により、ヒューマノイドロボットのような複雑な運動系がA点からB点に移動できるようになった。
自然界における動物の自然反応の観察にインスパイアされた私たちは、ロボットの移動におけるこの進歩を拡大したいと考えています。
ロボットがボールにぶつかることを避けるため,MuJoCo内にシミュレーション環境を構築した。
論文 参考訳(メタデータ) (2022-03-20T18:24:18Z) - An Adaptable Approach to Learn Realistic Legged Locomotion without
Examples [38.81854337592694]
本研究は,バネ装荷逆振り子モデルを用いて学習プロセスを導くことで,移動における現実性を保証するための汎用的アプローチを提案する。
モデルのない設定であっても、2足歩行ロボットと4足歩行ロボットに対して、学習したポリシーが現実的でエネルギー効率のよい移動歩行を生成できることを示す実験結果を示す。
論文 参考訳(メタデータ) (2021-10-28T10:14:47Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z) - Learning Agile Robotic Locomotion Skills by Imitating Animals [72.36395376558984]
動物の多様でアジャイルな運動スキルを再現することは、ロボット工学における長年の課題である。
そこで本研究では,現実世界の動物を模倣することで,足のロボットがアジャイルな運動能力を学ぶことができる模倣学習システムを提案する。
論文 参考訳(メタデータ) (2020-04-02T02:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。