論文の概要: LeVERB: Humanoid Whole-Body Control with Latent Vision-Language Instruction
- arxiv url: http://arxiv.org/abs/2506.13751v2
- Date: Thu, 19 Jun 2025 06:57:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 12:57:34.503333
- Title: LeVERB: Humanoid Whole-Body Control with Latent Vision-Language Instruction
- Title(参考訳): LeVERB:潜在視覚言語指導によるヒューマノイド全体制御
- Authors: Haoru Xue, Xiaoyu Huang, Dantong Niu, Qiayuan Liao, Thomas Kragerud, Jan Tommy Gravdahl, Xue Bin Peng, Guanya Shi, Trevor Darrell, Koushil Screenath, Shankar Sastry,
- Abstract要約: ヒューマノイド全体制御のための視覚言語・クローズドループベンチマーク(WBC)について紹介する。
そこで我々は,人間型視覚言語WBCのための階層型遅延命令追従フレームワークであるLeVERB: Latent Vision-Language-Encoded Robot Behaviorを提案する。
私たちのベンチマークでは、単純なビジュアルナビゲーションタスクでゼロショットが80%の成功率、全体的な58.5%の成功率が、階層的な階層的なVLA実装よりも7.8倍高い。
- 参考スコア(独自算出の注目度): 42.691551009750484
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision-language-action (VLA) models have demonstrated strong semantic understanding and zero-shot generalization, yet most existing systems assume an accurate low-level controller with hand-crafted action "vocabulary" such as end-effector pose or root velocity. This assumption confines prior work to quasi-static tasks and precludes the agile, whole-body behaviors required by humanoid whole-body control (WBC) tasks. To capture this gap in the literature, we start by introducing the first sim-to-real-ready, vision-language, closed-loop benchmark for humanoid WBC, comprising over 150 tasks from 10 categories. We then propose LeVERB: Latent Vision-Language-Encoded Robot Behavior, a hierarchical latent instruction-following framework for humanoid vision-language WBC, the first of its kind. At the top level, a vision-language policy learns a latent action vocabulary from synthetically rendered kinematic demonstrations; at the low level, a reinforcement-learned WBC policy consumes these latent verbs to generate dynamics-level commands. In our benchmark, LeVERB can zero-shot attain a 80% success rate on simple visual navigation tasks, and 58.5% success rate overall, outperforming naive hierarchical whole-body VLA implementation by 7.8 times.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、強い意味理解とゼロショットの一般化を示してきたが、既存のほとんどのシステムは、エンドエフェクターポーズやルートベロシティのような手作りのアクション「語彙」を持つ正確な低レベルコントローラを仮定している。
この仮定は、準静的なタスクに対する事前の作業を制限し、ヒューマノイド全身制御(WBC)タスクに必要なアジャイルで全身的な振る舞いを妨げます。
文献のこのギャップを捉えるために、我々は10のカテゴリから150以上のタスクからなるヒューマノイドWBCのための最初のsim-to-real-ready, vision- language, closed-loopベンチマークを導入する。
そこで我々は,人間型視覚言語WBCのための階層型遅延命令追従フレームワークであるLeVERB: Latent Vision-Language-Encoded Robot Behaviorを提案する。
上位レベルでは、視覚言語ポリシーは、合成されたキネマティックなデモンストレーションから潜時行動語彙を学習し、下位レベルでは、強化学習されたWBCポリシーはこれらの潜時動詞を消費し、ダイナミックスレベルのコマンドを生成する。
私たちのベンチマークでは、単純なビジュアルナビゲーションタスクでゼロショットが80%の成功率、全体的な58.5%の成功率が、階層的な階層的なVLA実装よりも7.8倍高い。
関連論文リスト
- From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models [5.660635614478238]
VLA(Vision-Language-Action)モデルは、汎用的で汎用的なロボットポリシーを作成することを約束する。
従来の模倣学習ベンチマークは言語命令の欠如のため不適当である。
言語命令,視覚,オブジェクトにまたがる10のサブカテゴリにまたがる50のシミュレーションベースのタスクの統合スイートを導入する。
論文 参考訳(メタデータ) (2025-06-11T16:52:18Z) - LoHoVLA: A Unified Vision-Language-Action Model for Long-Horizon Embodied Tasks [31.3295171851909]
実世界のエンボディエージェントは、マルチステップソリューションを必要とするハイレベルな目標に直面します。
ロングホライゾンタスクは、ハイレベルなタスクプランニングと低レベルなモーションコントロールを必要とする。
我々は,LoHoVLAと呼ばれる長期タスクのための統合視覚言語フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-31T06:01:03Z) - OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction [95.6266030753644]
Vision-Language-Action(VLA)モデルは、視覚的な観察と言語指示に基づいてロボット行動を予測することを目的としている。
既存のアプローチでは、視覚的特徴と言語的特徴が独立して下流ポリシーに供給されるため、微調整済みの視覚言語モデル(VLM)が必要である。
本稿では,テキスト認識による視覚的特徴抽出によって既存のアライメントを活用する新しいVLAアーキテクチャOTTERを提案する。
論文 参考訳(メタデータ) (2025-03-05T18:44:48Z) - DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping [14.511049253735834]
汎用ロボットは任意のシナリオで多様な物体を把握できなければならない。
DexGraspVLA(英語版)は、散らばったシーンにおける一般的なデキスタラス把握のための階層的なフレームワークである。
本手法は, 数千の未確認物体, 照明, 背景の組み合わせで90%以上の成功率を達成する。
論文 参考訳(メタデータ) (2025-02-28T09:57:20Z) - NaVILA: Legged Robot Vision-Language-Action Model for Navigation [60.00462044102051]
人間の言語命令を低レベルの脚関節動作に翻訳するのは簡単ではない。
そこで我々は,VLA(Vision-Language-Action Model)とロコモーションスキルを一体化した2レベルフレームワークであるNaVILAを提案する。
NaVILAは既存のベンチマークのアプローチを大幅に改善している。
論文 参考訳(メタデータ) (2024-12-05T18:58:17Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - AvatarGPT: All-in-One Framework for Motion Understanding, Planning,
Generation and Beyond [17.45562922442149]
AvatarGPTは、モーション理解、計画、世代、およびモーション・イン・バイ・ザ・シンセシスのような他のタスクのためのオール・イン・ワン・フレームワークである。
すべてのタスクは、ユニバーサルインターフェースとして言語とシームレスに相互接続される。
実験により,AvatarGPTは低レベルタスクでSOTAを達成し,高レベルタスクで有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-28T04:10:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。