論文の概要: Embodied Chain of Action Reasoning with Multi-Modal Foundation Model for Humanoid Loco-manipulation
- arxiv url: http://arxiv.org/abs/2504.09532v1
- Date: Sun, 13 Apr 2025 11:37:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-23 04:35:21.219502
- Title: Embodied Chain of Action Reasoning with Multi-Modal Foundation Model for Humanoid Loco-manipulation
- Title(参考訳): ヒューマノイドロコ操作のための多モード基礎モデルを用いた動作推論の身体的連鎖
- Authors: Yu Hao, Geeta Chandra Raju Bethala, Niraj Pudasaini, Hao Huang, Shuaihang Yuan, Congcong Wen, Baoru Huang, Anh Nguyen, Yi Fang,
- Abstract要約: 本稿では,ヒューマノイド・ロコ・マニピュレーションのためのテキスト・インストラクションからアクションを自律的に計画するために,行動推論手法の具体的連鎖を適用した新しい枠組みを提案する。
提案手法は,人型特有の思考方法論の連鎖を組み込んだもので,作業の細部や体の動きを解析し,作業の行程を移動行動と操作行動の連続に分解する。
本手法が上下半身制御における有効性を評価し,人間の指示を理解する上でのロボット行動推論戦略の連鎖の有効性を実証した。
- 参考スコア(独自算出の注目度): 17.449836528972867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enabling humanoid robots to autonomously perform loco-manipulation tasks in complex, unstructured environments poses significant challenges. This entails equipping robots with the capability to plan actions over extended horizons while leveraging multi-modality to bridge gaps between high-level planning and actual task execution. Recent advancements in multi-modal foundation models have showcased substantial potential in enhancing planning and reasoning abilities, particularly in the comprehension and processing of semantic information for robotic control tasks. In this paper, we introduce a novel framework based on foundation models that applies the embodied chain of action reasoning methodology to autonomously plan actions from textual instructions for humanoid loco-manipulation. Our method integrates humanoid-specific chain of thought methodology, including detailed affordance and body movement analysis, which provides a breakdown of the task into a sequence of locomotion and manipulation actions. Moreover, we incorporate spatial reasoning based on the observation and target object properties to effectively navigate where target position may be unseen or occluded. Through rigorous experimental setups on object rearrangement, manipulations and loco-manipulation tasks on a real-world environment, we evaluate our method's efficacy on the decoupled upper and lower body control and demonstrate the effectiveness of the chain of robotic action reasoning strategies in comprehending human instructions.
- Abstract(参考訳): 複雑で非構造的な環境で自律的にロボ操作タスクを実行するヒューマノイドロボットの開発は、大きな課題となる。
これは、高レベルの計画と実際のタスク実行のギャップを埋めるためにマルチモーダリティを活用しながら、拡張地平線上でアクションを計画する能力を持つロボットを装備する。
マルチモーダル基礎モデルの最近の進歩は、特にロボット制御タスクにおける意味情報の理解と処理において、計画と推論能力の向上に大きな可能性を示した。
本稿では,ヒューマノイド・ロコ・マニピュレーションのためのテキスト・インストラクションからアクションを自律的に計画するために,行動推論手法の具体的連鎖を適用した基礎モデルに基づく新しい枠組みを提案する。
提案手法は,人型特有の思考方法論の連鎖を組み込んだもので,作業の細部や体の動きを解析し,作業の行程を移動行動と操作行動の連続に分解する。
さらに,観測や対象物の性質に基づく空間的推論を取り入れて,対象位置が見えない,あるいは隠蔽されるような場所を効果的にナビゲートする。
現実の環境における物体の配置,操作,ロコ操作に関する厳密な実験的な設定を通じて,ロボット行動推論戦略の連鎖が人間の指示を理解する上で有効であることを示す。
関連論文リスト
- ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation [55.467742403416175]
本稿では,大規模モーションキャプチャをヒューマノイドに変換する物理駆動型ニューラルネットワークを提案する。
我々は高密度参照とスパースタスク仕様の両方をサポートする統合マルチモーダルコントローラを学習する。
その結果,ULTRAは自我中心の知覚から,自律的,目標条件付き全体ロコ操作に一般化することが示された。
論文 参考訳(メタデータ) (2026-03-03T18:59:29Z) - FRoM-W1: Towards General Humanoid Whole-Body Control with Language Instructions [147.04372611893032]
FRoM-W1は、自然言語を用いた一般的なヒューマノイド全体の動作制御を実現するために設計されたオープンソースのフレームワークである。
我々はUnitree H1とG1ロボット上でFRoM-W1を広範囲に評価した。
その結果,HumanML3D-Xベンチマークにおいて,人体全体の動作生成に優れた性能を示した。
論文 参考訳(メタデータ) (2026-01-19T07:59:32Z) - UniAct: Unified Motion Generation and Action Streaming for Humanoid Robots [27.794309591475326]
ヒューマノイドロボティクスにおける長年の目標は、人間レベルの柔軟性を持つ多様なマルチモーダル命令に従うことができる汎用エージェントの実現である。
ここでは、微調整MLLMと因果ストリーミングパイプラインを統合した2段階のフレームワークであるUniActを用いて、500ms以下のレイテンシで、ヒューマノイドロボットがマルチモーダル命令を実行できることを示す。
提案手法は, ゼロショット追尾における不完全な参照動作の成功率を19%向上させる。
論文 参考訳(メタデータ) (2025-12-30T16:20:13Z) - WholeBodyVLA: Towards Unified Latent VLA for Whole-Body Loco-Manipulation Control [22.617383494100253]
WholeBodyVLAはヒューマノイドのロコ操作のための統一的なフレームワークである。
AgiBot X2のヒューマノイドに関する総合的な実験を通じて検証され、以前のベースラインを21.3%上回った。
論文 参考訳(メタデータ) (2025-12-11T19:07:31Z) - Commanding Humanoid by Free-form Language: A Large Language Action Model with Unified Motion Vocabulary [59.98573566227095]
本稿では,Humanoid-LLAについて紹介する。Humanoid-LLAは,表現型言語コマンドを人型ロボットの身体的実行可能な全身動作にマッピングする,大規模言語行動モデルである。
提案手法は,人間とヒューマノイドの運動プリミティブを共有された離散空間に整合させる統一運動語彙,物理的実現性を確保するための特権ポリシーから抽出した語彙指向コントローラ,動的に認識された報酬を用いた強化学習を用いた物理インフォームド微調整ステージの3つのコアコンポーネントを統合する。
論文 参考訳(メタデータ) (2025-11-28T08:11:24Z) - METIS: Multi-Source Egocentric Training for Integrated Dexterous Vision-Language-Action Model [36.82365894983052]
大きなボトルネックは、デクスタラススキルのための大規模でアクションアノテートされたデータの不足にある。
我々は,エゴセントリックなデータセット上で事前学習したデクスタラス操作のための視覚言語アクションモデルMETISを提案する。
提案手法は,6つの実世界のタスクにおける平均成功率を達成し,異常な操作能力を示す。
論文 参考訳(メタデータ) (2025-11-21T16:32:36Z) - From Language to Locomotion: Retargeting-free Humanoid Control via Motion Latent Guidance [55.31807046722006]
既存の言語誘導型ヒューマノイドパイプラインは面倒で信頼できない。
本稿では,言語を基盤とした動作潜伏者に対してヒューマノイドポリシーを規定する言語フリーフレームワークであるRoboGhostを紹介する。
我々は,RoboGhostがデプロイメントの遅延を大幅に低減し,成功率と精度を向上し,スムーズでセマンティックに整合したヒューマノイドを生成することを示す。
論文 参考訳(メタデータ) (2025-10-16T17:57:47Z) - ResMimic: From General Motion Tracking to Humanoid Whole-body Loco-Manipulation via Residual Learning [59.64325421657381]
ヒューマノイド全体のロコ操作は、日々のサービスや倉庫のタスクにトランスフォーメーション機能を約束する。
ResMimicは、人間の動作データから正確に表現力のあるヒューマノイド制御のための2段階の残差学習フレームワークである。
結果は、強いベースラインよりもタスク成功、トレーニング効率、堅牢性が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-10-06T17:47:02Z) - Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - Learning Coordinated Bimanual Manipulation Policies using State Diffusion and Inverse Dynamics Models [22.826115023573205]
我々は人間の操作戦略の予測的性質をロボット模倣学習に注入する。
我々は,将来の状態を予測し,予測状態を達成するロボット動作を計算するために拡散モデルを訓練する。
我々のフレームワークは、常に最先端のステート・ツー・アクション・マッピングポリシーを上回ります。
論文 参考訳(メタデータ) (2025-03-30T01:25:35Z) - Humanoid Whole-Body Locomotion on Narrow Terrain via Dynamic Balance and Reinforcement Learning [54.26816599309778]
動的バランスと強化学習(RL)に基づく新しい全身移動アルゴリズムを提案する。
具体的には,ZMP(Zero-Moment Point)駆動の報酬とタスク駆動の報酬を,全身のアクター批判的枠組みで拡張した尺度を活用することで,動的バランス機構を導入する。
フルサイズのUnitree H1-2ロボットによる実験により、非常に狭い地形でのバランスを維持するための手法の有効性が検証された。
論文 参考訳(メタデータ) (2025-02-24T14:53:45Z) - CAIMAN: Causal Action Influence Detection for Sample Efficient Loco-manipulation [17.94272840532448]
本稿では、疎タスク報酬のみに依存するロコ操作学習のための新しいフレームワークであるCAIMANを紹介する。
我々は,低レベルのロコモーションポリシとタスク関連速度コマンドを優先する高レベルのポリシーを組み合わせることによって,階層的な制御戦略を採用する。
フレームワークの優れたサンプル効率、多様な環境への適応性、そして微調整なしでハードウェアへの移行に成功したことを実証する。
論文 参考訳(メタデータ) (2025-02-02T16:16:53Z) - Grounding Language Models in Autonomous Loco-manipulation Tasks [3.8363685417355557]
異なるシナリオにおけるタスクに基づいて行動を学び、選択し、計画する新しいフレームワークを提案する。
我々は,大規模言語モデル(LLM)の計画と推論機能を活用し,階層的なタスクグラフを構築する。
CENTAUROロボットを用いたシミュレーションおよび実世界の実験により、言語モデルに基づくプランナーが、新しいロコ操作タスクに効率的に適応できることが示されている。
論文 参考訳(メタデータ) (2024-09-02T15:27:48Z) - Autonomous Behavior Planning For Humanoid Loco-manipulation Through Grounded Language Model [6.9268843428933025]
大規模言語モデル(LLM)は、意味情報の理解と処理のための強力な計画と推論能力を示している。
本稿では,ロボットが与えられたテキストによる指示の下で,自律的に動作や低レベル実行を計画できる新しい言語モデルベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-15T17:33:32Z) - Embodied Instruction Following in Unknown Environments [66.60163202450954]
未知環境における複雑なタスクに対するEIF(Embodied instruction following)法を提案する。
我々は,ハイレベルなタスクプランナと低レベルな探索コントローラを含む,階層的な具体化命令に従うフレームワークを構築した。
タスクプランナに対しては、タスク完了プロセスと既知の視覚的手がかりに基づいて、人間の目標達成のための実行可能なステップバイステッププランを生成する。
論文 参考訳(メタデータ) (2024-06-17T17:55:40Z) - Unified Task and Motion Planning using Object-centric Abstractions of
Motion Constraints [56.283944756315066]
本稿では,タスクとモーションプランニングを一つの検索に統一するTAMP手法を提案する。
我々のアプローチは、オフザシェルフAIサーチの計算効率を活用して、物理的に実現可能な計画が得られるような、オブジェクト中心の動作制約の抽象化に基づいている。
論文 参考訳(メタデータ) (2023-12-29T14:00:20Z) - ThinkBot: Embodied Instruction Following with Thought Chain Reasoning [66.09880459084901]
EIF(Embodied Instruction following)は、複雑な環境下でオブジェクトを相互作用させることで、エージェントが人間の指示を完了させる。
我々は,人間の指導における思考連鎖を原因とした思考ボットを提案し,その不足した行動記述を復元する。
私たちのThinkBotは、成功率と実行効率の両面で、最先端のEIFメソッドよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-12-12T08:30:09Z) - Hierarchical generative modelling for autonomous robots [8.023920215148486]
人型ロボットが、移動、操作、把握の全体的利用を必要とする複雑なタスクを自律的に完了できることを示します。
具体的には、箱を回収して輸送し、ドアを通り抜けて目的地に到達し、接近し、サッカーを蹴ることのできるヒューマノイドロボットの能力を示すとともに、身体の損傷や地面の不規則性の存在下で頑健な性能を示す。
論文 参考訳(メタデータ) (2023-08-15T13:51:03Z) - Dexterous Manipulation from Images: Autonomous Real-World RL via Substep
Guidance [71.36749876465618]
本稿では,ユーザが新しいタスクを定義するための"プログラミング不要"なアプローチを提供する,視覚に基づくデクスタラスな操作システムについて述べる。
本システムには,最終タスクと中間タスクを画像例で定義するためのフレームワークが組み込まれている。
実世界における多段階物体操作の4指ロボットハンドラーによる実験結果
論文 参考訳(メタデータ) (2022-12-19T22:50:40Z) - Active Exploration for Robotic Manipulation [40.39182660794481]
本稿では,スパース・リワード型ロボット操作作業における効率的な学習を可能にするモデルに基づく能動探索手法を提案する。
我々は,提案アルゴリズムをシミュレーションおよび実ロボットで評価し,スクラッチから本手法を訓練した。
論文 参考訳(メタデータ) (2022-10-23T18:07:51Z) - Procedure Planning in Instructional Videosvia Contextual Modeling and
Model-based Policy Learning [114.1830997893756]
本研究は,実生活ビデオにおける目標指向アクションを計画するモデルを学習することに焦点を当てる。
本研究では,ベイズ推論とモデルに基づく模倣学習を通して,人間の行動のモデル化を行う新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-05T01:06:53Z) - Bottom-Up Skill Discovery from Unsegmented Demonstrations for
Long-Horizon Robot Manipulation [55.31301153979621]
我々は,実世界の長距離ロボット操作作業に,スキル発見による取り組みを行う。
未解決のデモンストレーションから再利用可能なスキルのライブラリを学ぶためのボトムアップアプローチを提案する。
提案手法は,多段階操作タスクにおける最先端の模倣学習手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-28T16:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。