Fugu-MT 論文翻訳(概要): Cybo-Waiter: A Physical Agentic Framework for Humanoid Whole-Body Locomotion-Manipulation

論文の概要: Cybo-Waiter: A Physical Agentic Framework for Humanoid Whole-Body Locomotion-Manipulation

arxiv url: http://arxiv.org/abs/2603.10675v1
Date: Wed, 11 Mar 2026 11:41:32 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-21 18:33:56.678616
Title: Cybo-Waiter: A Physical Agentic Framework for Humanoid Whole-Body Locomotion-Manipulation
Title（参考訳）: Cybo-Waiter:Humanoid Whole-Body Locomotion-Manipulationのための物理エージェントフレームワーク
Authors: Peng Ren, Haoyang Ge, Chuan Qi, Cong Huang, Hong Li, Jiang Zhao, Pei Chi, Kai Chen,
Abstract要約: 移動と操作は、姿勢、到達可能性、バランスによって密結合しているため、ヒューマノイドにとって長い地平線実行は困難である。提案するヒューマノイドエージェントフレームワークは,VLM計画を検証可能なタスクプログラムに変換し,マルチオブジェクト3D監視でループをクローズする。テーブルトップ操作と長軸ヒューマノイドロコ操作による実験は、複数物体の接地、時間的安定性、リカバリ駆動のリプランニングによるロバスト性の向上を示す。
参考スコア（独自算出の注目度）: 14.648223907591849
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Robots are increasingly expected to execute open ended natural language requests in human environments, which demands reliable long horizon execution under partial observability. This is especially challenging for humanoids because locomotion and manipulation are tightly coupled through stance, reachability, and balance. We present a humanoid agent framework that turns VLM plans into verifiable task programs and closes the loop with multi object 3D geometric supervision. A VLM planner compiles each instruction into a typed JSON sequence of subtasks with explicit predicate based preconditions and success conditions. Using SAM3 and RGB-D, we ground all task relevant entities in 3D, estimate object centroids and extents, and evaluate predicates over stable frames to obtain condition level diagnostics. The supervisor uses these diagnostics to verify subtask completion and to provide condition-level feedback for progression and replanning. We execute each subtask by coordinating humanoid locomotion and whole-body manipulation, selecting feasible motion primitives under reachability and balance constraints. Experiments on tabletop manipulation and long horizon humanoid loco manipulation tasks show improved robustness from multi object grounding, temporal stability, and recovery driven replanning.
Abstract（参考訳）: ロボットは人間の環境でオープンエンドの自然言語要求を実行することがますます期待されている。運動と操作は姿勢、到達性、バランスによって強く結合されているため、これはヒューマノイドにとって特に困難である。本稿では,VLM計画が検証可能なタスクプログラムに変換され,マルチオブジェクト3D幾何監視でループを閉じるヒューマノイドエージェントフレームワークを提案する。 VLMプランナーは、各命令を明示的な述語に基づく前提条件と成功条件でサブタスクの型付きJSONシーケンスにコンパイルする。 SAM3 と RGB-D を用いて,全てのタスク関連エンティティを 3 次元にグルーピングし,対象のセントロイドと範囲を推定し,安定したフレーム上での述語を評価し,条件レベルの診断を行う。管理者はこれらの診断を用いてサブタスクの完了を検証し、進捗と再計画のための条件レベルのフィードバックを提供する。我々は,人体運動と全身操作を調整し,到達性とバランスの制約の下で実行可能な運動プリミティブを選択することで,各サブタスクを実行する。テーブルトップ操作と長軸ヒューマノイドロコ操作による実験は、複数物体の接地、時間的安定性、リカバリ駆動のリプランニングによるロバスト性の向上を示す。

関連論文リスト

RADAR: Closed-Loop Robotic Data Generation via Semantic Planning and Autonomous Causal Environment Reset [48.645870795753105]
ロボットのためのロバスト自動データ取得(RADAR)について紹介する。 RADARは完全に自律的でクローズドループのデータ生成エンジンで、収集サイクルから人間の介入を完全に取り除きます。シミュレーションでは、複雑な長期タスクにおいて、最大90%の成功率を達成する。
論文参考訳（メタデータ） (2026-03-12T11:18:52Z)
Automatic Cognitive Task Generation for In-Situ Evaluation of Embodied Agents [43.01384379901339]
本研究では,人間の認知に触発された未確認環境に対する動的タスク生成手法を提案する。インタラクションの段階では、エージェントは環境と積極的に対話し、タスクの実行と生成の間のループを作成する。 10シーンにわたる実験では、TAAは2サイクルで87,876のタスクを自動生成している。
論文参考訳（メタデータ） (2026-02-05T03:07:00Z)
Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation [90.90219129619344]
本稿では,スパイキング機能を備えたR-prior-S, Recurrent Geometric-priormodal Policyを提案する。物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを利用する。ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
論文参考訳（メタデータ） (2026-01-13T23:36:30Z)
Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。 G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文参考訳（メタデータ） (2025-10-09T09:08:33Z)
HumanoidVerse: A Versatile Humanoid for Vision-Language Guided Multi-Object Rearrangement [51.16740261131198]
視覚言語誘導型ヒューマノイド制御のための新しいフレームワークであるHumanoidVerseを紹介する。 HumanoidVerseは、自然言語命令と自我中心のカメラRGB観測のみでガイドされる複数のオブジェクトの連続的な操作をサポートする。我々の研究は、現実の知覚的制約の下で複雑なシーケンシャルなタスクを実行できる、堅牢で汎用的なヒューマノイドエージェントに向けた重要なステップである。
論文参考訳（メタデータ） (2025-08-23T08:23:14Z)
ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks [46.676862567167625]
ODYSSEYは、マニピュレータを備えたアジャイル四足ロボットのための統合モバイル操作フレームワークである。言語条件付きタスクにおける自我中心的認識の課題に対処するために,視覚言語モデルを用いた階層型プランナを導入する。コントロールレベルでは、新しい全身政策は、挑戦的な地形をまたいだ堅牢な協調を実現する。
論文参考訳（メタデータ） (2025-08-11T17:54:31Z)
Embodied Long Horizon Manipulation with Closed-loop Code Generation and Incremental Few-shot Adaptation [12.077740860502878]
身体的ロングホライゾン操作では、ロボットシステムが視覚や自然言語などのマルチモーダル入力を処理し、それらを実行可能なアクションに変換する必要がある。近年,大規模言語モデル (LLM) を自然言語を用いてタスクをサブタスクに分解し,事前訓練した低レベルコントローラを誘導する高レベルプランナとしての利用が検討されている。我々のフレームワークは,LoHoRavens,CALVIN,Franka Kitchen,および乱雑な現実世界設定をまたいだ,30以上の多様かつ不明瞭なロングホライゾンタスクに対して,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-03-27T20:32:58Z)
SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文参考訳（メタデータ） (2024-05-30T00:32:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。