Fugu-MT 論文翻訳(概要): Embodied Chain of Action Reasoning with Multi-Modal Foundation Model for Humanoid Loco-manipulation

論文の概要: Embodied Chain of Action Reasoning with Multi-Modal Foundation Model for Humanoid Loco-manipulation

arxiv url: http://arxiv.org/abs/2504.09532v1
Date: Sun, 13 Apr 2025 11:37:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-23 04:35:21.219502
Title: Embodied Chain of Action Reasoning with Multi-Modal Foundation Model for Humanoid Loco-manipulation
Title（参考訳）: ヒューマノイドロコ操作のための多モード基礎モデルを用いた動作推論の身体的連鎖
Authors: Yu Hao, Geeta Chandra Raju Bethala, Niraj Pudasaini, Hao Huang, Shuaihang Yuan, Congcong Wen, Baoru Huang, Anh Nguyen, Yi Fang,
Abstract要約: 本稿では,ヒューマノイド・ロコ・マニピュレーションのためのテキスト・インストラクションからアクションを自律的に計画するために,行動推論手法の具体的連鎖を適用した新しい枠組みを提案する。提案手法は,人型特有の思考方法論の連鎖を組み込んだもので,作業の細部や体の動きを解析し,作業の行程を移動行動と操作行動の連続に分解する。本手法が上下半身制御における有効性を評価し,人間の指示を理解する上でのロボット行動推論戦略の連鎖の有効性を実証した。
参考スコア（独自算出の注目度）: 17.449836528972867
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Enabling humanoid robots to autonomously perform loco-manipulation tasks in complex, unstructured environments poses significant challenges. This entails equipping robots with the capability to plan actions over extended horizons while leveraging multi-modality to bridge gaps between high-level planning and actual task execution. Recent advancements in multi-modal foundation models have showcased substantial potential in enhancing planning and reasoning abilities, particularly in the comprehension and processing of semantic information for robotic control tasks. In this paper, we introduce a novel framework based on foundation models that applies the embodied chain of action reasoning methodology to autonomously plan actions from textual instructions for humanoid loco-manipulation. Our method integrates humanoid-specific chain of thought methodology, including detailed affordance and body movement analysis, which provides a breakdown of the task into a sequence of locomotion and manipulation actions. Moreover, we incorporate spatial reasoning based on the observation and target object properties to effectively navigate where target position may be unseen or occluded. Through rigorous experimental setups on object rearrangement, manipulations and loco-manipulation tasks on a real-world environment, we evaluate our method's efficacy on the decoupled upper and lower body control and demonstrate the effectiveness of the chain of robotic action reasoning strategies in comprehending human instructions.
Abstract（参考訳）: 複雑で非構造的な環境で自律的にロボ操作タスクを実行するヒューマノイドロボットの開発は、大きな課題となる。これは、高レベルの計画と実際のタスク実行のギャップを埋めるためにマルチモーダリティを活用しながら、拡張地平線上でアクションを計画する能力を持つロボットを装備する。マルチモーダル基礎モデルの最近の進歩は、特にロボット制御タスクにおける意味情報の理解と処理において、計画と推論能力の向上に大きな可能性を示した。本稿では,ヒューマノイド・ロコ・マニピュレーションのためのテキスト・インストラクションからアクションを自律的に計画するために,行動推論手法の具体的連鎖を適用した基礎モデルに基づく新しい枠組みを提案する。提案手法は,人型特有の思考方法論の連鎖を組み込んだもので,作業の細部や体の動きを解析し,作業の行程を移動行動と操作行動の連続に分解する。さらに,観測や対象物の性質に基づく空間的推論を取り入れて,対象位置が見えない,あるいは隠蔽されるような場所を効果的にナビゲートする。現実の環境における物体の配置,操作,ロコ操作に関する厳密な実験的な設定を通じて,ロボット行動推論戦略の連鎖が人間の指示を理解する上で有効であることを示す。

関連論文リスト

Learning Coordinated Bimanual Manipulation Policies using State Diffusion and Inverse Dynamics Models [22.826115023573205]
我々は人間の操作戦略の予測的性質をロボット模倣学習に注入する。我々は,将来の状態を予測し,予測状態を達成するロボット動作を計算するために拡散モデルを訓練する。我々のフレームワークは、常に最先端のステート・ツー・アクション・マッピングポリシーを上回ります。
論文参考訳（メタデータ） (2025-03-30T01:25:35Z)
CAIMAN: Causal Action Influence Detection for Sample Efficient Loco-manipulation [17.94272840532448]
本稿では、疎タスク報酬のみに依存するロコ操作学習のための新しいフレームワークであるCAIMANを紹介する。我々は,低レベルのロコモーションポリシとタスク関連速度コマンドを優先する高レベルのポリシーを組み合わせることによって,階層的な制御戦略を採用する。フレームワークの優れたサンプル効率、多様な環境への適応性、そして微調整なしでハードウェアへの移行に成功したことを実証する。
論文参考訳（メタデータ） (2025-02-02T16:16:53Z)
Grounding Language Models in Autonomous Loco-manipulation Tasks [3.8363685417355557]
異なるシナリオにおけるタスクに基づいて行動を学び、選択し、計画する新しいフレームワークを提案する。我々は,大規模言語モデル(LLM)の計画と推論機能を活用し,階層的なタスクグラフを構築する。 CENTAUROロボットを用いたシミュレーションおよび実世界の実験により、言語モデルに基づくプランナーが、新しいロコ操作タスクに効率的に適応できることが示されている。
論文参考訳（メタデータ） (2024-09-02T15:27:48Z)
Autonomous Behavior Planning For Humanoid Loco-manipulation Through Grounded Language Model [6.9268843428933025]
大規模言語モデル(LLM)は、意味情報の理解と処理のための強力な計画と推論能力を示している。本稿では,ロボットが与えられたテキストによる指示の下で,自律的に動作や低レベル実行を計画できる新しい言語モデルベースのフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-15T17:33:32Z)
Embodied Instruction Following in Unknown Environments [66.60163202450954]
未知環境における複雑なタスクに対するEIF(Embodied instruction following)法を提案する。我々は,ハイレベルなタスクプランナと低レベルな探索コントローラを含む,階層的な具体化命令に従うフレームワークを構築した。タスクプランナに対しては、タスク完了プロセスと既知の視覚的手がかりに基づいて、人間の目標達成のための実行可能なステップバイステッププランを生成する。
論文参考訳（メタデータ） (2024-06-17T17:55:40Z)
Unified Task and Motion Planning using Object-centric Abstractions of Motion Constraints [56.283944756315066]
本稿では,タスクとモーションプランニングを一つの検索に統一するTAMP手法を提案する。我々のアプローチは、オフザシェルフAIサーチの計算効率を活用して、物理的に実現可能な計画が得られるような、オブジェクト中心の動作制約の抽象化に基づいている。
論文参考訳（メタデータ） (2023-12-29T14:00:20Z)
ThinkBot: Embodied Instruction Following with Thought Chain Reasoning [66.09880459084901]
EIF(Embodied Instruction following)は、複雑な環境下でオブジェクトを相互作用させることで、エージェントが人間の指示を完了させる。我々は,人間の指導における思考連鎖を原因とした思考ボットを提案し,その不足した行動記述を復元する。私たちのThinkBotは、成功率と実行効率の両面で、最先端のEIFメソッドよりも大きなマージンで優れています。
論文参考訳（メタデータ） (2023-12-12T08:30:09Z)
Hierarchical generative modelling for autonomous robots [8.023920215148486]
人型ロボットが、移動、操作、把握の全体的利用を必要とする複雑なタスクを自律的に完了できることを示します。具体的には、箱を回収して輸送し、ドアを通り抜けて目的地に到達し、接近し、サッカーを蹴ることのできるヒューマノイドロボットの能力を示すとともに、身体の損傷や地面の不規則性の存在下で頑健な性能を示す。
論文参考訳（メタデータ） (2023-08-15T13:51:03Z)
Dexterous Manipulation from Images: Autonomous Real-World RL via Substep Guidance [71.36749876465618]
本稿では,ユーザが新しいタスクを定義するための"プログラミング不要"なアプローチを提供する,視覚に基づくデクスタラスな操作システムについて述べる。本システムには,最終タスクと中間タスクを画像例で定義するためのフレームワークが組み込まれている。実世界における多段階物体操作の4指ロボットハンドラーによる実験結果
論文参考訳（メタデータ） (2022-12-19T22:50:40Z)
Active Exploration for Robotic Manipulation [40.39182660794481]
本稿では,スパース・リワード型ロボット操作作業における効率的な学習を可能にするモデルに基づく能動探索手法を提案する。我々は,提案アルゴリズムをシミュレーションおよび実ロボットで評価し,スクラッチから本手法を訓練した。
論文参考訳（メタデータ） (2022-10-23T18:07:51Z)
Procedure Planning in Instructional Videosvia Contextual Modeling and Model-based Policy Learning [114.1830997893756]
本研究は,実生活ビデオにおける目標指向アクションを計画するモデルを学習することに焦点を当てる。本研究では,ベイズ推論とモデルに基づく模倣学習を通して,人間の行動のモデル化を行う新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-10-05T01:06:53Z)
Bottom-Up Skill Discovery from Unsegmented Demonstrations for Long-Horizon Robot Manipulation [55.31301153979621]
我々は,実世界の長距離ロボット操作作業に,スキル発見による取り組みを行う。未解決のデモンストレーションから再利用可能なスキルのライブラリを学ぶためのボトムアップアプローチを提案する。提案手法は,多段階操作タスクにおける最先端の模倣学習手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2021-09-28T16:18:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。