論文の概要: FLAM: Foundation Model-Based Body Stabilization for Humanoid Locomotion and Manipulation
- arxiv url: http://arxiv.org/abs/2503.22249v1
- Date: Fri, 28 Mar 2025 09:02:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:31:10.883240
- Title: FLAM: Foundation Model-Based Body Stabilization for Humanoid Locomotion and Manipulation
- Title(参考訳): FLAM:Humanoid Locomotion and Manipulationのための基礎モデルに基づく身体安定化
- Authors: Xianqi Zhang, Hongliang Wei, Wenrui Wang, Xingtao Wang, Xiaopeng Fan, Debin Zhao,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、ヒューマノイドロボットの体全体を制御するための主要な方法の1つである。
ヒューマノイド・ロコモーション・アンド・マニピュレーション(FLAM)のための基礎モデルに基づく手法を提案する。
- 参考スコア(独自算出の注目度): 24.485893922136633
- License:
- Abstract: Humanoid robots have attracted significant attention in recent years. Reinforcement Learning (RL) is one of the main ways to control the whole body of humanoid robots. RL enables agents to complete tasks by learning from environment interactions, guided by task rewards. However, existing RL methods rarely explicitly consider the impact of body stability on humanoid locomotion and manipulation. Achieving high performance in whole-body control remains a challenge for RL methods that rely solely on task rewards. In this paper, we propose a Foundation model-based method for humanoid Locomotion And Manipulation (FLAM for short). FLAM integrates a stabilizing reward function with a basic policy. The stabilizing reward function is designed to encourage the robot to learn stable postures, thereby accelerating the learning process and facilitating task completion. Specifically, the robot pose is first mapped to the 3D virtual human model. Then, the human pose is stabilized and reconstructed through a human motion reconstruction model. Finally, the pose before and after reconstruction is used to compute the stabilizing reward. By combining this stabilizing reward with the task reward, FLAM effectively guides policy learning. Experimental results on a humanoid robot benchmark demonstrate that FLAM outperforms state-of-the-art RL methods, highlighting its effectiveness in improving stability and overall performance.
- Abstract(参考訳): 近年、ヒューマノイドロボットが注目されている。
強化学習(Reinforcement Learning, RL)は、ヒューマノイドロボットの体全体を制御するための主要な方法の1つである。
RLは、タスク報酬によって導かれる環境相互作用から学習することで、エージェントがタスクを完成させることを可能にする。
しかし、既存のRL法では、身体の安定性がヒューマノイドの移動と操作に与える影響を明示的に考慮することは稀である。
タスク報酬のみに依存するRLメソッドでは、ボディ全体の制御において高いパフォーマンスを達成することが依然として課題である。
本稿では,ヒューマノイド・ロコモーション・アンド・マニピュレーション(FLAM: Humanoid Locomotion And Manipulation)のファンデーションモデルに基づく手法を提案する。
FLAMは、安定化報酬関数と基本ポリシーを統合する。
安定化報酬関数は、ロボットが安定した姿勢を学習し、学習プロセスを加速し、タスク完了を容易にするように設計されている。
具体的には、ロボットのポーズをまず3D仮想人間モデルにマッピングする。
そして、人間の動き再構成モデルにより、人間のポーズを安定化して再構成する。
最後に、復元前後のポーズを用いて安定化報酬を算出する。
この安定化報酬とタスク報酬を組み合わせることで、FLAMは政策学習を効果的に導く。
ヒューマノイドロボットベンチマークの実験結果によると、FLAMは最先端のRL法よりも優れており、安定性と全体的な性能を向上させる効果が強調されている。
関連論文リスト
- HOMIE: Humanoid Loco-Manipulation with Isomorphic Exoskeleton Cockpit [52.12750762494588]
現在のヒューマノイド遠隔操作システムは、信頼性の高い低レベル制御ポリシーを欠いているか、または正確な全身制御コマンドを取得するのに苦労している。
本稿では,ヒューマノイドのロコ操作ポリシと低コストなエクソスケルトン型ハードウェアシステムを統合した,新しいヒューマノイド遠隔操作コックピットを提案する。
論文 参考訳(メタデータ) (2025-02-18T16:33:38Z) - Visual IRL for Human-Like Robotic Manipulation [5.167226775583172]
本研究では,協調ロボット(コボット)が操作タスクを学習し,それを人間的な方法で実行するための新しい手法を提案する。
本手法は,ロボットが人間の行動を観察してタスクの実行を学習する,LfO(Learning-from-observation)パラダイムに該当する。
2つの異なる現実的な操作課題に対して,本手法の性能を評価する。
論文 参考訳(メタデータ) (2024-12-16T01:23:13Z) - Automatic Environment Shaping is the Next Frontier in RL [20.894840942319323]
多くのロボット学者は、夕方にタスクを持ったロボットを提示し、翌朝にそのタスクを解くことができるロボットを見つけることを夢見ている。
実際の強化学習は、挑戦的なロボティクスのタスクにおいて素晴らしいパフォーマンスを達成したが、そのタスクをRLに相応しい方法でセットアップするには、相当な人的努力が必要である。
政策最適化やその他のアイデアのアルゴリズムによる改善は、トレーニング環境を形作る際の主要なボトルネックを解決するために導かれるべきだ、という私たちの立場です。
論文 参考訳(メタデータ) (2024-07-23T05:22:29Z) - Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control [106.32794844077534]
本稿では,二足歩行ロボットのための動的移動制御系を構築するために,深層強化学習を用いた研究について述べる。
本研究では、周期歩行やランニングから周期ジャンプや立位に至るまで、様々な動的二足歩行技術に使用できる汎用的な制御ソリューションを開発する。
この研究は、二足歩行ロボットの俊敏性の限界を、現実世界での広範な実験を通じて押し上げる。
論文 参考訳(メタデータ) (2024-01-30T10:48:43Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own [59.11934130045106]
我々は、政策、価値、成功-回帰基盤モデルからのガイダンスとフィードバックを活用するために、RLFP(Reinforcement Learning with Foundation Priors)を提案する。
本フレームワークでは,自動報酬関数を用いてより効率的にエージェントを探索できるファウンデーション誘導型アクター・クリティカル(FAC)アルゴリズムを導入する。
本手法は,実ロボットとシミュレーションの両方において,様々な操作タスクにおいて顕著な性能を実現する。
論文 参考訳(メタデータ) (2023-10-04T07:56:42Z) - Human-Robot Skill Transfer with Enhanced Compliance via Dynamic Movement
Primitives [1.7901837062462316]
本研究では,動的運動プリミティブ(Dynamic Movement Primitives)フレームワークにおいて,人間の実演から動的特徴を抽出し,パラメータを自動チューニングする体系的手法を提案する。
本手法は,LfDとRLの両方に追従するロボット軌道を再現するために,人間の動的特徴を抽出するための実際のロボット装置に実装した。
論文 参考訳(メタデータ) (2023-04-12T08:48:28Z) - Human-to-Robot Imitation in the Wild [50.49660984318492]
本研究では,第三者の視点からの学習を中心に,効率的なワンショットロボット学習アルゴリズムを提案する。
実世界における20種類の操作タスクを含む,ワンショットの一般化と成功を示す。
論文 参考訳(メタデータ) (2022-07-19T17:59:59Z) - Model Predictive Control for Fluid Human-to-Robot Handovers [50.72520769938633]
人間の快適さを考慮に入れた計画運動は、人間ロボットのハンドオーバプロセスの一部ではない。
本稿では,効率的なモデル予測制御フレームワークを用いてスムーズな動きを生成することを提案する。
ユーザ数名の多様なオブジェクトに対して,人間とロボットのハンドオーバ実験を行う。
論文 参考訳(メタデータ) (2022-03-31T23:08:20Z) - Learning Bipedal Robot Locomotion from Human Movement [0.791553652441325]
本研究では、実世界の二足歩行ロボットに、モーションキャプチャーデータから直接の動きを教えるための強化学習に基づく手法を提案する。
本手法は,シミュレーション環境下でのトレーニングから,物理ロボット上での実行へシームレスに移行する。
本研究では,ダイナミックウォークサイクルから複雑なバランスや手振りに至るまでの動作を内製したヒューマノイドロボットについて実演する。
論文 参考訳(メタデータ) (2021-05-26T00:49:37Z) - Residual Force Control for Agile Human Behavior Imitation and Extended
Motion Synthesis [32.22704734791378]
強化学習は、モーションキャプチャーデータからヒューマノイド制御ポリシーを学習することで、現実的な人間の行動に大きな可能性を示してきた。
バレエダンスのような洗練された人間のスキルを再現することや、複雑な移行を伴う長期的な人間の振る舞いを安定して模倣することは、依然として非常に困難である。
動作空間に外部残留力を加えることでヒューマノイド制御ポリシーを強化する新しいアプローチである残留力制御(RFC)を提案する。
論文 参考訳(メタデータ) (2020-06-12T17:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。