論文の概要: EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models
- arxiv url: http://arxiv.org/abs/2602.04515v1
- Date: Wed, 04 Feb 2026 13:04:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.531043
- Title: EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models
- Title(参考訳): エゴアクター:視覚言語モデルによるヒューマノイドロボットの空間認識型エゴセントリック行動へのタスクプランニング
- Authors: Yu Bai, MingMing Yu, Chaojie Li, Ziyi Bai, Xinlong Wang, Börje F. Karlsson,
- Abstract要約: EgoActingは,高レベルの指示を様々な,正確に,空間的に認識されたヒューマノイド行動に直結させることが要求される。
さらに,ロコモーションプリミティブを予測可能な,統一的でスケーラブルな視覚言語モデル(VLM)であるEgoActorを導入することで,このタスクをインスタンス化する。
我々は,実世界の実演,空間的推論質問応答,シミュレートされた環境デモンストレーションから,エゴセントリックなRGBのみのデータに対する広範囲の監視を活用している。
- 参考スコア(独自算出の注目度): 31.768426199719816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying humanoid robots in real-world settings is fundamentally challenging, as it demands tight integration of perception, locomotion, and manipulation under partial-information observations and dynamically changing environments. As well as transitioning robustly between sub-tasks of different types. Towards addressing these challenges, we propose a novel task - EgoActing, which requires directly grounding high-level instructions into various, precise, spatially aware humanoid actions. We further instantiate this task by introducing EgoActor, a unified and scalable vision-language model (VLM) that can predict locomotion primitives (e.g., walk, turn, move sideways, change height), head movements, manipulation commands, and human-robot interactions to coordinate perception and execution in real-time. We leverage broad supervision over egocentric RGB-only data from real-world demonstrations, spatial reasoning question-answering, and simulated environment demonstrations, enabling EgoActor to make robust, context-aware decisions and perform fluent action inference (under 1s) with both 8B and 4B parameter models. Extensive evaluations in both simulated and real-world environments demonstrate that EgoActor effectively bridges abstract task planning and concrete motor execution, while generalizing across diverse tasks and unseen environments.
- Abstract(参考訳): ヒューマノイドロボットを現実の環境で展開することは、知覚、移動、操作を、部分的な情報観測と動的に変化する環境の下で緊密に統合する必要があるため、基本的には難しい。
異なるタイプのサブタスク間の堅牢な移行に加えて。
これらの課題に対処するために、我々は、様々な、正確に、空間的に認識されたヒューマノイド行動に、高レベルの命令を直接基礎付けることを必要とする新しいタスク、EgoActingを提案する。
EgoActorは、移動プリミティブ(例えば、歩行、回転、横方向、横方向、高さの変化)、頭部の動き、操作コマンド、人間とロボットの相互作用をリアルタイムで予測し、知覚と実行をリアルタイムに調整できる、統一的でスケーラブルな視覚言語モデル(VLM)である。
本研究では,実世界の実演,空間的推論による質問応答,シミュレートされた環境デモンストレーションから得られた,自我中心的なRGBのみのデータに対する広範な監視を活用し,EgoActorが頑健でコンテキスト対応の意思決定を行い,8Bパラメータと4Bパラメータモデルの両方で流動的な行動推論(1s以下)を行うことを可能にする。
EgoActorは抽象的なタスク計画と具体的なモーター実行を効果的に橋渡しし、多様なタスクや目に見えない環境を一般化する。
関連論文リスト
- Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation [90.90219129619344]
本稿では,スパイキング機能を備えたR-prior-S, Recurrent Geometric-priormodal Policyを提案する。
物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを利用する。
ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
論文 参考訳(メタデータ) (2026-01-13T23:36:30Z) - PhysHSI: Towards a Real-World Generalizable and Natural Humanoid-Scene Interaction System [67.2851799763138]
PhysHSIはシミュレーショントレーニングパイプラインと現実世界のデプロイメントシステムで構成される。
シミュレーションでは,自然のヒューマノイドとシーンの相互作用データを模倣するために,逆運動に基づくポリシー学習を採用する。
実世界の展開には、LiDARとカメラ入力を組み合わせた粗粒度オブジェクトローカライズモジュールを導入する。
論文 参考訳(メタデータ) (2025-10-13T07:11:37Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - HumanoidVerse: A Versatile Humanoid for Vision-Language Guided Multi-Object Rearrangement [51.16740261131198]
視覚言語誘導型ヒューマノイド制御のための新しいフレームワークであるHumanoidVerseを紹介する。
HumanoidVerseは、自然言語命令と自我中心のカメラRGB観測のみでガイドされる複数のオブジェクトの連続的な操作をサポートする。
我々の研究は、現実の知覚的制約の下で複雑なシーケンシャルなタスクを実行できる、堅牢で汎用的なヒューマノイドエージェントに向けた重要なステップである。
論文 参考訳(メタデータ) (2025-08-23T08:23:14Z) - INTENTION: Inferring Tendencies of Humanoid Robot Motion Through Interactive Intuition and Grounded VLM [9.217332197059001]
本研究では,学習した対話的直感と自律的操作を多様なシナリオで実現可能な,新しいフレームワークINTENTIONを提案する。
実世界のさまざまなタスクに対する人間的な理解と意思決定を具現化した,過去のタスクインタラクションのシーンを記録するために,メモリグラフを導入した。
一方,視覚シーンから身体的関係や余裕を抽出する直感的知覚器を設計する。
論文 参考訳(メタデータ) (2025-08-06T23:27:22Z) - Recognizing Actions from Robotic View for Natural Human-Robot Interaction [52.00935005918032]
自然人-ロボットインタラクション(Natural Human-Robot Interaction, N-HRI)は、ロボット自身が動いているか静止しているかに関わらず、ロボットが様々な距離と状態で人間の行動を認識することを要求する。
N-HRIの既存のベンチマークは、限られたデータ、モダリティ、タスクカテゴリ、主題や環境の多様性のために、N-HRIのユニークな複雑さに対処できない。
モバイルサービスロボットで広く使われている知覚中心ロボットビューのための大規模データセット(Action from Robotic View)を紹介する。
論文 参考訳(メタデータ) (2025-07-30T09:48:34Z) - Grounding Language Models in Autonomous Loco-manipulation Tasks [3.8363685417355557]
異なるシナリオにおけるタスクに基づいて行動を学び、選択し、計画する新しいフレームワークを提案する。
我々は,大規模言語モデル(LLM)の計画と推論機能を活用し,階層的なタスクグラフを構築する。
CENTAUROロボットを用いたシミュレーションおよび実世界の実験により、言語モデルに基づくプランナーが、新しいロコ操作タスクに効率的に適応できることが示されている。
論文 参考訳(メタデータ) (2024-09-02T15:27:48Z) - Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。