論文の概要: Endowing GPT-4 with a Humanoid Body: Building the Bridge Between Off-the-Shelf VLMs and the Physical World
- arxiv url: http://arxiv.org/abs/2511.00041v1
- Date: Tue, 28 Oct 2025 03:20:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.532667
- Title: Endowing GPT-4 with a Humanoid Body: Building the Bridge Between Off-the-Shelf VLMs and the Physical World
- Title(参考訳): ヒューマノイド体によるGPT-4のエンドウイング--オフザシェルフVLMと物理世界との橋渡し-
- Authors: Yingzhao Jian, Zhongan Wang, Yi Yang, Hehe Fan,
- Abstract要約: BiBoは基本的なインタラクションだけでなく、多様な複雑な動きも扱える。
オープン環境でのインタラクションタスクの成功率は90.2%であり、従来の手法よりも16.3%精度が向上している。
- 参考スコア(独自算出の注目度): 27.305032044997287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humanoid agents often struggle to handle flexible and diverse interactions in open environments. A common solution is to collect massive datasets to train a highly capable model, but this approach can be prohibitively expensive. In this paper, we explore an alternative solution: empowering off-the-shelf Vision-Language Models (VLMs, such as GPT-4) to control humanoid agents, thereby leveraging their strong open-world generalization to mitigate the need for extensive data collection. To this end, we present \textbf{BiBo} (\textbf{B}uilding humano\textbf{I}d agent \textbf{B}y \textbf{O}ff-the-shelf VLMs). It consists of two key components: (1) an \textbf{embodied instruction compiler}, which enables the VLM to perceive the environment and precisely translate high-level user instructions (e.g., {\small\itshape ``have a rest''}) into low-level primitive commands with control parameters (e.g., {\small\itshape ``sit casually, location: (1, 2), facing: 90$^\circ$''}); and (2) a diffusion-based \textbf{motion executor}, which generates human-like motions from these commands, while dynamically adapting to physical feedback from the environment. In this way, BiBo is capable of handling not only basic interactions but also diverse and complex motions. Experiments demonstrate that BiBo achieves an interaction task success rate of 90.2\% in open environments, and improves the precision of text-guided motion execution by 16.3\% over prior methods. The code will be made publicly available.
- Abstract(参考訳): ヒューマノイドエージェントは、オープン環境で柔軟で多様な相互作用を扱うのに苦労することが多い。
一般的な解決策は、非常に有能なモデルをトレーニングするために大量のデータセットを集めることだが、このアプローチは違法に高価である可能性がある。
本稿では,人型エージェントを制御するために市販のビジョン・ランゲージ・モデル(GPT-4など)を活用することで,膨大なデータ収集の必要性を軽減するために,その強力なオープンワールドの一般化を活用する。
この目的のために、我々は \textbf{BiBo} (\textbf{B}uilding humano\textbf{I}d agent \textbf{B}y \textbf{O}ff-the-shelf VLMs)を示す。
VLMは環境を知覚し、高レベルのユーザ命令(e g , {\small\itshape ``have arest''})を制御パラメータ(e g , {\small\itshape ``sit casually, location: (1, 2))を持つ低レベルのプリミティブコマンドに変換する。
このように、BiBoは基本的なインタラクションだけでなく、多様な複雑な動きも扱える。
実験により、BiBoはオープン環境において90.2\%のインタラクションタスク成功率を達成し、従来の手法よりも16.3\%の精度でテキスト誘導動作の実行を改善することが示された。
コードは公開されます。
関連論文リスト
- RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics [67.11221574129937]
空間参照は、3D物理世界と相互作用するエンボディロボットの基本的な能力である。
本稿では,まず空間的理解を正確に行うことのできる3次元VLMであるRoboReferを提案する。
RoboReferは、強化微調整による一般化された多段階空間推論を推進している。
論文 参考訳(メタデータ) (2025-06-04T17:59:27Z) - FLARE: Robot Learning with Implicit World Modeling [87.81846091038676]
$textbfFLARE$は、予測潜在世界モデリングをロボットポリシー学習に統合する。
$textbfFLARE$は最先端のパフォーマンスを実現し、これまでのポリシー学習のベースラインを最大26%上回っている。
この結果は、暗黙の世界モデリングと高周波ロボット制御を組み合わせた汎用的でスケーラブルなアプローチとして$textbfFLARE$を確立した。
論文 参考訳(メタデータ) (2025-05-21T15:33:27Z) - Textual Decomposition Then Sub-motion-space Scattering for Open-Vocabulary Motion Generation [74.94730615777212]
テキスト・トゥ・モーション・ジェネレーションはコンピュータビジョンにおいて重要なタスクであり、与えられたテキストによってターゲットとなる3Dモーションを生成する。
現在の注釈付きデータセットの限られたスケールでは、サブテキストスペースからサブモーションスペースへのマッピングしか実現できない。
本稿では,原子運動を中間表現として活用し,テキスト分解とサブモーション空間散乱という2つの秩序に結合したステップを活用することを提案する。
論文 参考訳(メタデータ) (2024-11-06T17:57:43Z) - ROCKET-1: Mastering Open-World Interaction with Visual-Temporal Context Prompting [24.56720920528011]
視覚言語モデル(VLM)は、マルチモーダルなタスクに優れていますが、オープンワールド環境における意思決定の具体化にそれらを適用することは、課題を示します。
1つの重要な問題は、低レベルの観測における個別の実体と効果的な計画に必要な抽象概念のギャップを埋めることである。
VLMとポリシーモデルの間の新しい通信プロトコルである視覚的時間的コンテキストを提案する。
論文 参考訳(メタデータ) (2024-10-23T13:26:59Z) - Vision Transformer with Sparse Scan Prior [24.78780746169092]
textbfSparse textbfScan textbfSelf-textbfAttention mechanism(rmS3rmA$)を提案する。
このメカニズムはトークンごとに一連のAnchor of Interestをプリ定義し、局所的な注意を使ってこれらのアンカー周辺の空間情報を効率的にモデル化する。
rmS3rmA$で構築すると、 textbfSparse textbfScan textbfVisionを導入します。
論文 参考訳(メタデータ) (2024-05-22T04:34:36Z) - MIRACLE: Towards Personalized Dialogue Generation with Latent-Space
Multiple Personal Attribute Control [33.94908203568825]
ttributes textbfControl in textbfLatent-Space textbfEnergy-based Models。
我々は条件付き変分自動エンコーダを用いて、潜伏する関節属性空間内の密集したパーソナライズされた応答と整合する。
論文 参考訳(メタデータ) (2023-10-22T08:44:26Z) - Edit As You Wish: Video Caption Editing with Multi-grained User Control [61.76233268900959]
マルチグラデーションなユーザリクエストでガイドされた既存のビデオ記述を自動的に修正する新しい textbfVideo textbfCaption textbfEditing textbf(VCE) タスクを提案する。
人間の書き直し習慣にインスパイアされたユーザコマンドは、粗い粒度からきめ細かな粒度まで多様なユーザニーズをカバーするために、重要な3重テキスト操作、位置、属性として設計される。
論文 参考訳(メタデータ) (2023-05-15T07:12:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。