論文の概要: MuJoCo MPC for Humanoid Control: Evaluation on HumanoidBench
- arxiv url: http://arxiv.org/abs/2408.00342v1
- Date: Thu, 1 Aug 2024 07:27:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 21:25:51.897602
- Title: MuJoCo MPC for Humanoid Control: Evaluation on HumanoidBench
- Title(参考訳): ヒューマノイド制御のための MuJoCo MPC:Humanoid Bench の評価
- Authors: Moritz Meser, Aditya Bhatt, Boris Belousov, Jan Peters,
- Abstract要約: 我々は最近, MuJoCo MPC を用いたヒューマノイドベンチ(HumanoidBench)に関するベンチマークを行った。
我々は,HumanoidBenchのスパース報酬関数が最適化された場合,望ましくない,非現実的な振る舞いをもたらすことを発見した。
本稿では,タスク間のロボットの動作を安定化させる一連の正規化用語を提案する。
- 参考スコア(独自算出の注目度): 14.659792487114432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the recently introduced benchmark for whole-body humanoid control HumanoidBench using MuJoCo MPC. We find that sparse reward functions of HumanoidBench yield undesirable and unrealistic behaviors when optimized; therefore, we propose a set of regularization terms that stabilize the robot behavior across tasks. Current evaluations on a subset of tasks demonstrate that our proposed reward function allows achieving the highest HumanoidBench scores while maintaining realistic posture and smooth control signals. Our code is publicly available and will become a part of MuJoCo MPC, enabling rapid prototyping of robot behaviors.
- Abstract(参考訳): 我々は最近, MuJoCo MPC を用いたヒューマノイドベンチ(HumanoidBench)に関するベンチマークを行った。
我々は,HumanoidBenchのスパース報酬関数が最適化された場合,望ましくない,非現実的な動作をもたらすことを見出した。
タスクのサブセットに対する現在の評価は、提案した報酬関数が、現実的な姿勢と滑らかな制御信号を維持しつつ、高いHumanoidBenchスコアを達成可能であることを示している。
私たちのコードは公開されており、MuJoCo MPCの一部となり、ロボットの行動の迅速なプロトタイピングを可能にします。
関連論文リスト
- WorldSimBench: Towards Video Generation Models as World Simulators [79.69709361730865]
我々は、予測モデルの機能を階層に分類し、WorldSimBenchと呼ばれる2つの評価フレームワークを提案することにより、World Simulatorの評価の第一歩を踏み出す。
WorldSimBenchにはExplicit Perceptual EvaluationとImplicit Manipulative Evaluationが含まれている。
我々の総合的な評価は、ビデオ生成モデルのさらなる革新を促進する重要な洞察を与え、World Simulatorsをエンボディされた人工知能への重要な進歩と位置づけている。
論文 参考訳(メタデータ) (2024-10-23T17:56:11Z) - R-AIF: Solving Sparse-Reward Robotic Tasks from Pixels with Active Inference and World Models [50.19174067263255]
我々は、エージェントがスパース・リワード、継続的なアクション、ゴールベースのロボット制御POMDP環境においてエクササイズするのを助けるために、事前の選好学習手法と自己修正スケジュールを導入する。
我々のエージェントは、累積報酬、相対安定性、成功率の観点から、最先端モデルよりも優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-09-21T18:32:44Z) - Learning Multi-Modal Whole-Body Control for Real-World Humanoid Robots [13.229028132036321]
Masked Humanoid Controller (MHC)は、立位、歩行、体の一部の動きの模倣をサポートする。
MHCは、立ち上がり、歩行、最適化された基準軌跡、再ターゲットされたビデオクリップ、人間のモーションキャプチャーデータにまたがる行動のライブラリから、部分的にマスクされた動きを模倣する。
実世界のDigi V3ヒューマノイドロボット上でのシミュレート・トゥ・リアルトランスファーを実演する。
論文 参考訳(メタデータ) (2024-07-30T09:10:24Z) - Inverse Kinematics for Neuro-Robotic Grasping with Humanoid Embodied Agents [13.53738829631595]
本稿では,カルト空間におけるスムーズなロボットの動きを素早く設計できるゼロショットモーションプランニング手法を提案する。
B'ezier曲線をベースとしたCartesian Planは、我々の神経インスパイアされた逆運動学(IK)手法であるCycleIKによって、関節空間の軌跡に変換される。
人型ロボットNICOとNICOLの物理的ハードウェア上での動作プランナの評価を行った。
論文 参考訳(メタデータ) (2024-04-12T21:42:34Z) - HumanoidBench: Simulated Humanoid Benchmark for Whole-Body Locomotion and Manipulation [50.616995671367704]
そこで本研究では,人型ロボットが器用な手を備えた,高次元シミュレーション型ロボット学習ベンチマークHumanoidBenchを提案する。
その結果,現在最先端の強化学習アルゴリズムがほとんどのタスクに支障をきたすのに対して,階層的学習アプローチはロバストな低レベルポリシーに支えられた場合,優れた性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:45:44Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - GAN-MPC: Training Model Predictive Controllers with Parameterized Cost
Functions using Demonstrations from Non-identical Experts [14.291720751625585]
本稿では,ジェンセン-シャノン間におけるデモンストレータの状態-軌道分布のばらつきを最小限に抑えるために,GAN(Generative Adversarial Network)を提案する。
我々はDeepMind Controlスイートの様々なシミュレーションロボットタスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-05-30T15:15:30Z) - Model Predictive Control for Fluid Human-to-Robot Handovers [50.72520769938633]
人間の快適さを考慮に入れた計画運動は、人間ロボットのハンドオーバプロセスの一部ではない。
本稿では,効率的なモデル予測制御フレームワークを用いてスムーズな動きを生成することを提案する。
ユーザ数名の多様なオブジェクトに対して,人間とロボットのハンドオーバ実験を行う。
論文 参考訳(メタデータ) (2022-03-31T23:08:20Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。