論文の概要: Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills
- arxiv url: http://arxiv.org/abs/2503.12533v1
- Date: Sun, 16 Mar 2025 14:53:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:28:04.159248
- Title: Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills
- Title(参考訳): being-0:視覚言語モデルとモジュールスキルを備えたヒューマノイドロボットエージェント
- Authors: Haoqi Yuan, Yu Bai, Yuhui Fu, Bohan Zhou, Yicheng Feng, Xinrun Xu, Yi Zhan, Börje F. Karlsson, Zongqing Lu,
- Abstract要約: 現実の具体的タスクにおいて人間レベルのパフォーマンスを達成することができる自律ロボットエージェントを構築することは、ヒューマノイドロボット研究の究極の目標である。
近年の進歩は、ファンデーションモデル(FM)によるハイレベル認知と、ヒューマノイドロボットの低レベルスキル開発に大きな進歩をもたらした。
本稿では,FMとモジュール型スキルライブラリを統合する階層型エージェントフレームワークであるBeat-0を紹介する。
being-0は、器用な手とアクティブなビジョンを備えたフルサイズのヒューマノイドロボット上で、効率的でリアルタイムなパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 31.788094786664324
- License:
- Abstract: Building autonomous robotic agents capable of achieving human-level performance in real-world embodied tasks is an ultimate goal in humanoid robot research. Recent advances have made significant progress in high-level cognition with Foundation Models (FMs) and low-level skill development for humanoid robots. However, directly combining these components often results in poor robustness and efficiency due to compounding errors in long-horizon tasks and the varied latency of different modules. We introduce Being-0, a hierarchical agent framework that integrates an FM with a modular skill library. The FM handles high-level cognitive tasks such as instruction understanding, task planning, and reasoning, while the skill library provides stable locomotion and dexterous manipulation for low-level control. To bridge the gap between these levels, we propose a novel Connector module, powered by a lightweight vision-language model (VLM). The Connector enhances the FM's embodied capabilities by translating language-based plans into actionable skill commands and dynamically coordinating locomotion and manipulation to improve task success. With all components, except the FM, deployable on low-cost onboard computation devices, Being-0 achieves efficient, real-time performance on a full-sized humanoid robot equipped with dexterous hands and active vision. Extensive experiments in large indoor environments demonstrate Being-0's effectiveness in solving complex, long-horizon tasks that require challenging navigation and manipulation subtasks. For further details and videos, visit https://beingbeyond.github.io/being-0.
- Abstract(参考訳): 現実の具体的タスクにおいて人間レベルのパフォーマンスを達成することができる自律ロボットエージェントを構築することは、ヒューマノイドロボット研究の究極の目標である。
近年の進歩は、ファンデーションモデル(FM)によるハイレベル認知と、ヒューマノイドロボットの低レベルスキル開発に大きな進歩をもたらした。
しかしながら、これらのコンポーネントを直接結合すると、長い水平タスクの複雑なエラーと異なるモジュールの様々な遅延により、ロバスト性や効率性が低下することが多い。
本稿では,FMとモジュール型スキルライブラリを統合する階層型エージェントフレームワークであるBeat-0を紹介する。
FMは、命令理解、タスク計画、推論などの高いレベルの認知タスクを処理し、スキルライブラリは、低レベルの制御のために安定した移動と巧妙な操作を提供する。
これらのレベルのギャップを埋めるために,軽量視覚言語モデル(VLM)を利用した新しいコネクタモジュールを提案する。
Connectorは、言語ベースの計画を実行可能なスキルコマンドに翻訳し、動的に移動と操作を調整してタスクの成功を改善することで、FMの具体化機能を強化する。
FMを除くすべてのコンポーネントが低コストのオンボード計算デバイスにデプロイ可能であるため、Beat-0は、器用な手とアクティブなビジョンを備えたフルサイズのヒューマノイドロボット上で、効率的でリアルタイムなパフォーマンスを実現する。
大規模な屋内環境での大規模な実験は、困難なナビゲーションと操作のサブタスクを必要とする複雑な長い水平タスクの解決におけるBeat-0の有効性を示す。
詳細とビデオについては、https://beingbeyond.github.io/being-0.comをご覧ください。
関連論文リスト
- HOMIE: Humanoid Loco-Manipulation with Isomorphic Exoskeleton Cockpit [52.12750762494588]
現在のヒューマノイド遠隔操作システムは、信頼性の高い低レベル制御ポリシーを欠いているか、または正確な全身制御コマンドを取得するのに苦労している。
本稿では,ヒューマノイドのロコ操作ポリシと低コストなエクソスケルトン型ハードウェアシステムを統合した,新しいヒューマノイド遠隔操作コックピットを提案する。
論文 参考訳(メタデータ) (2025-02-18T16:33:38Z) - Human-Humanoid Robots Cross-Embodiment Behavior-Skill Transfer Using Decomposed Adversarial Learning from Demonstration [9.42179962375058]
本稿では,デジタル人間モデルを共通プロトタイプとして使用することにより,データのボトルネックを低減するための転送可能なフレームワークを提案する。
このモデルは、人間による実演から、敵対的な模倣を通して行動プリミティブを学習し、複雑なロボット構造を機能的な構成要素に分解する。
本フレームワークは,多種多様な構成のヒューマノイドロボット5体を用いて検証した。
論文 参考訳(メタデータ) (2024-12-19T18:41:45Z) - Grounding Language Models in Autonomous Loco-manipulation Tasks [3.8363685417355557]
異なるシナリオにおけるタスクに基づいて行動を学び、選択し、計画する新しいフレームワークを提案する。
我々は,大規模言語モデル(LLM)の計画と推論機能を活用し,階層的なタスクグラフを構築する。
CENTAUROロボットを用いたシミュレーションおよび実世界の実験により、言語モデルに基づくプランナーが、新しいロコ操作タスクに効率的に適応できることが示されている。
論文 参考訳(メタデータ) (2024-09-02T15:27:48Z) - HYPERmotion: Learning Hybrid Behavior Planning for Autonomous Loco-manipulation [7.01404330241523]
HYPERmotionは、異なるシナリオのタスクに基づいて行動を学び、選択し、計画するフレームワークである。
強化学習と全身最適化を組み合わせることで,38関節の運動を生成する。
シミュレーションと実世界の実験では、学習した動きが新しいタスクに効率的に適応できることが示されている。
論文 参考訳(メタデータ) (2024-06-20T18:21:24Z) - Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。
PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (2024-05-02T17:59:31Z) - Yell At Your Robot: Improving On-the-Fly from Language Corrections [84.09578841663195]
高いレベルのポリシーは、人間のフィードバックによって言語修正の形で容易に管理できることを示す。
このフレームワークは、ロボットがリアルタイムの言語フィードバックに迅速に適応するだけでなく、このフィードバックを反復的なトレーニングスキームに組み込むことを可能にする。
論文 参考訳(メタデータ) (2024-03-19T17:08:24Z) - Skill Transformer: A Monolithic Policy for Mobile Manipulation [36.18813073796717]
Skill Transformerは,条件付きシーケンスモデリングとスキルモジュール性を組み合わせた長軸ロボットタスクの解法である。
Skill Transformerは、ロボットの自我中心的・自我受容的な観察に基づいて、エンドツーエンドで訓練され、高いレベルのスキルと全体の低レベルのアクションの両方を予測する。
具体的ベンチマークでSkill Transformerをテストし、新しいシナリオで堅牢なタスク計画と低レベル制御を実行し、ハードリアレンジ問題におけるベースラインよりも2.5倍高い成功率を達成する。
論文 参考訳(メタデータ) (2023-08-19T01:37:41Z) - Hierarchical generative modelling for autonomous robots [8.023920215148486]
人型ロボットが、移動、操作、把握の全体的利用を必要とする複雑なタスクを自律的に完了できることを示します。
具体的には、箱を回収して輸送し、ドアを通り抜けて目的地に到達し、接近し、サッカーを蹴ることのできるヒューマノイドロボットの能力を示すとともに、身体の損傷や地面の不規則性の存在下で頑健な性能を示す。
論文 参考訳(メタデータ) (2023-08-15T13:51:03Z) - Surfer: Progressive Reasoning with World Models for Robotic Manipulation [51.26109827779267]
本稿では,新しいシンプルなロボット操作フレームワークであるSurferを紹介する。
Surferは、ロボット操作を視覚シーンの状態伝達として扱い、それをアクションとシーンという2つの部分に分割する。
これは世界モデルに基づいており、ロボット操作を視覚シーンの状態伝達として扱い、アクションとシーンの2つの部分に分けられる。
論文 参考訳(メタデータ) (2023-06-20T07:06:04Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Model Predictive Control for Fluid Human-to-Robot Handovers [50.72520769938633]
人間の快適さを考慮に入れた計画運動は、人間ロボットのハンドオーバプロセスの一部ではない。
本稿では,効率的なモデル予測制御フレームワークを用いてスムーズな動きを生成することを提案する。
ユーザ数名の多様なオブジェクトに対して,人間とロボットのハンドオーバ実験を行う。
論文 参考訳(メタデータ) (2022-03-31T23:08:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。